Projecte Aina

Busquen milions de veus de voluntaris perquè la tecnologia entengui i parli el català

La campanya "La nostra llengua és la teva veu", del projecte Aina, vol recollir milions de veus de diverses edats i variants dialectals perquè es puguin desenvolupar productes o serveis tecnològics en català

RedaccióActualitzat

Una campanya per recollir milions de veus de persones parlant en català permetrà crear el primer corpus de veu del català. L'objectiu és elaborar recursos digitals perquè qualsevol empresa o entitat pugui desenvolupar productes o serveis tecnològics en la nostra llengua.

La campanya s'inscriu en el projecte Aina, impulsat pel Departament de la Vicepresidència i de Polítiques Digitals i Territori en col·laboració amb el Barcelona Supercomputing Center (BSC).

L'objectiu és generar els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d'aplicacions basades en la intel·ligència artificial i les tecnologies de la llengua, com ara els assistents de veu, els traductors automàtics o els agents conversacionals en català.

La campanya, que porta el lema "La nostra llengua és la teva veu", comença aquest dijous 17 de febrer i es farà a través de la iniciativa de Common Voice de Mozilla per al català. Es tracta d'una plataforma on tothom que vulgui podrà llegir i enregistrar un nombre il·limitat de frases, agrupades de cinc en cinc, per ajudar les màquines a aprendre com parlem les persones.

L'enregistrament es pot fer de manera totalment anònima, però els promotors expliquen que registrar-se prèviament i proporcionar les dades de gènere, edat i variant dialectal facilita molt la feina de classificar les dades. A més, permetrà saber si es cobreixen tots els registres. Actualment, el perfil de veu majoritari a la plataforma Common Voice de Mozilla és el d'homes d'entre 30 i 50 anys parlants de català central.


Donar milions de dades a les màquines

Perquè tots els productes i serveis informàtics parlin i entenguin el català, cal donar a les màquines quantitats immenses d'informació degudament preparada. A part de comprendre el significat, l'ha d'interpretar en el context. Així, la paraula "banc", per exemple, es pot referir a un lloc per seure, una entitat financera o fins i tot pot tenir significat simbòlic. I "precipitar" pot ser contribuir que un fet es produeixi de forma més ràpida, però en química significa fer que en una dissolució es formi un sòlid insoluble.

Per aconseguir-ho, cal donar a la màquina un diccionari de la llengua (el que tècnicament es diu "corpus") i uns cursos per aprendre-la (el que tècnicament es diuen "models"). I per elaborar-los són necessaris milions de textos i milions d'hores d'àudio i vídeo en aquella llengua. Les dades, a més, han de ser prou diverses perquè representin tota la riquesa de la llengua.

El corpus també s'enriqueix amb l'aportació del repositori documental de la Corporació Catalana de Mitjans Audiovisuals (CCMA) i del Consell de l'Audiovisual de Catalunya (CAC), entre d'altres.

Actualment, el projecte disposa d'un primer corpus textual de 1.770 milions de paraules reunides en 95 milions de frases. S'han obtingut a base de descarregar textos de diferents fonts digitals en català.

Ara es generarà una segona versió millorada i enriquida d'aquest corpus que reculli tots els matisos de la llengua escrita, tant de variants dialectals com del registre lingüístic col·loquial, literari o administratiu.

Per a aquest 2022 el projecte Aina té també altres objectius: crear tres serveis lingüístics bàsics (d'anonimització, de classificació de documents i d'identificació d'entitats i conceptes clau) per construir futures aplicacions i solucions per a l'usuari final, crear models de la llengua especialitzats en un àmbit o una tasca concrets i crear un motor de traducció català-castellà per millorar la qualitat dels motors actualment disponibles.

El Departament de la Vicepresidència i de Polítiques Digitals i Territori destinarà aquest any 3 milions d'euros al projecte Aina mitjançant una subvenció directa al BSC, que serà l'encarregat d'executar-lo. Aquesta aportació multiplica per 12 el pressupost que hi va destinar la Generalitat el 2021.

 

ARXIVAT A:
TecnologiaCatalà
VÍDEOS RELACIONATS
Anar al contingut