Qui som

Som desenvolupadors de treballadors de llengua que estan dedicats a millorar l’accés a les llengües a l’àmbit digital, sobretot llengües minoritzades. Formem part de la cooperativa Col·lectivaT, per més informació sobre nosaltres podeu visitar la pàgina de la cooperativa i les nostres xarxes socials.

Detalls de la tecnologia

Les tecnologies que vam utilitzar són els repositoris de Tacotron2 i WaveGlow, de l’empresa de NVIDIA publicats amb llicències obertes a github. Un dels resultats més importants és el codi; és a dir, el nostre fork de Tacotron2, que està modificat per al català, imprescindible per fer servir els models de català. A més vam desenvolupar un segon repositori catotron-cpu, que és executable amb els processadors més comuns, els CPUs. Aquesta versió de Catotron utilitza MelGan, que és una alternativa més lleguera i més eficient que WaveGlow.

Per entrenar els models de català vam aprofitar les dades obertes ja publicades. Les veus resultants estan entrenades amb les dades de Festcat, que també va ser un projecte de la Generalitat, realitzat pels investigadors de la UPC. Vam utilitzar les millors veus d’aquest conjunt de dades: les veus de l’Ona i del Pau.

El codi està al github aquí i aquí; i els models són descarregables aquí.

Actualment estem treballant a modernitzar l’arquitectura de Catotron, per una experiència millor. Per més informació podeu consultar el blog post original.

Suport

Aquesta eina va ser desenvolupat gràcies als projectes “síntesi de la parla contra la bretxa digital” i “promoció digital de les tecnologies lingüístiques obertes i lliures en català” subvencionats pel Departament de Cultura. Una part dels fons provenen dels cabals que atorga la Junta d’Herències de la Generalitat de Catalunya.