Busquen milions de veus de voluntaris perquè la tecnologia entengui i parli el català

La campanya "La nostra llengua és la teva veu", del projecte Aina, vol recollir milions de veus de diverses edats i variants dialectals perquè es puguin desenvolupar productes o serveis tecnològics en català
Redacció Actualitzat
TEMA:
Tecnologia

Una campanya per recollir milions de veus de persones parlant en català permetrà crear el primer corpus de veu del català. L'objectiu és elaborar recursos digitals perquè qualsevol empresa o entitat pugui desenvolupar productes o serveis tecnològics en la nostra llengua.

La campanya s'inscriu en el projecte Aina, impulsat pel Departament de la Vicepresidència i de Polítiques Digitals i Territori en col·laboració amb el Barcelona Supercomputing Center (BSC).

L'objectiu és generar els recursos digitals i lingüístics necessaris per facilitar el desenvolupament d'aplicacions basades en la intel·ligència artificial i les tecnologies de la llengua, com ara els assistents de veu, els traductors automàtics o els agents conversacionals en català.

La campanya, que porta el lema "La nostra llengua és la teva veu", comença aquest dijous 17 de febrer i es farà a través de la iniciativa de Common Voice de Mozilla per al català. Es tracta d'una plataforma on tothom que vulgui podrà llegir i enregistrar un nombre il·limitat de frases, agrupades de cinc en cinc, per ajudar les màquines a aprendre com parlem les persones.

L'enregistrament es pot fer de manera totalment anònima, però els promotors expliquen que registrar-se prèviament i proporcionar les dades de gènere, edat i variant dialectal facilita molt la feina de classificar les dades. A més, permetrà saber si es cobreixen tots els registres. Actualment, el perfil de veu majoritari a la plataforma Common Voice de Mozilla és el d'homes d'entre 30 i 50 anys parlants de català central.


Donar milions de dades a les màquines

Perquè tots els productes i serveis informàtics parlin i entenguin el català, cal donar a les màquines quantitats immenses d'informació degudament preparada. A part de comprendre el significat, l'ha d'interpretar en el context. Així, la paraula "banc", per exemple, es pot referir a un lloc per seure, una entitat financera o fins i tot pot tenir significat simbòlic. I "precipitar" pot ser contribuir que un fet es produeixi de forma més ràpida, però en química significa fer que en una dissolució es formi un sòlid insoluble.

Per aconseguir-ho, cal donar a la màquina un diccionari de la llengua (el que tècnicament es diu "corpus") i uns cursos per aprendre-la (el que tècnicament es diuen "models"). I per elaborar-los són necessaris milions de textos i milions d'hores d'àudio i vídeo en aquella llengua. Les dades, a més, han de ser prou diverses perquè representin tota la riquesa de la llengua.

El corpus també s'enriqueix amb l'aportació del repositori documental de la Corporació Catalana de Mitjans Audiovisuals (CCMA) i del Consell de l'Audiovisual de Catalunya (CAC), entre d'altres.

Actualment, el projecte disposa d'un primer corpus textual de 1.770 milions de paraules reunides en 95 milions de frases. S'han obtingut a base de descarregar textos de diferents fonts digitals en català.

Ara es generarà una segona versió millorada i enriquida d'aquest corpus que reculli tots els matisos de la llengua escrita, tant de variants dialectals com del registre lingüístic col·loquial, literari o administratiu.

Per a aquest 2022 el projecte Aina té també altres objectius: crear tres serveis lingüístics bàsics (d'anonimització, de classificació de documents i d'identificació d'entitats i conceptes clau) per construir futures aplicacions i solucions per a l'usuari final, crear models de la llengua especialitzats en un àmbit o una tasca concrets i crear un motor de traducció català-castellà per millorar la qualitat dels motors actualment disponibles.

El Departament de la Vicepresidència i de Polítiques Digitals i Territori destinarà aquest any 3 milions d'euros al projecte Aina mitjançant una subvenció directa al BSC, que serà l'encarregat d'executar-lo. Aquesta aportació multiplica per 12 el pressupost que hi va destinar la Generalitat el 2021.

 

ARXIVAT A:
Tecnologia Català
VÍDEOS RELACIONATS
El més llegit
AVUI ÉS NOTÍCIA
Anar al contingut