Assistents de veu a terra davant d'un sofà
Un dels objectius del projecte AINA és que els assistents de veu entenguin i parlin el català (Europa Press)

El projecte AINA rep un impuls amb el català col·loquial de vora 10 milions de missatges

Un acord entre el Barcelona Supercomputing Center i Racó Català permetrà treballar amb els vora deu milions de missatges del fòrum d'aquest mitjà digital

Actualitzat

El projecte AINA, que té com a objectiu crear els recursos tecnològics necessaris per facilitar la inclusió del català a les aplicacions d'intel·ligència artificial, també es basarà en textos generats per usuaris i no només en els textos més formals. Aquest part del treball es facilitarà gràcies a un acord entre el Barcelona Supercomputing Center (BSC) i el mitja digital Racó Català.

El projecte AINA està liderat pel Departament de Polítiques Digitals de la Generalitat i té la col·laboració tècnica i logística del BSC. Pretén, entre altres coses, elaborar els models lingüístics i les eines perquè les màquines entenguin el català.

I per assolir aquest objectiu, el BSC considera clau no fer servir només els textos més formals de fonts com l'Agència Catalana de Notícies (ACN) o l'Enciclopèdia Catalana, entre d'altres, que reflecteixen un català normatiu. Calien també textos produïts pels usuaris, que no sempre són correctes i que tenen paraules i expressions col·loquials, dialectals o fins i tot locals o que formen part de l'argot.

A l'hora de buscar continguts hi havia la possibilitat de fer servir els grans volums de dades lingüístiques no confidencials amb aquest tipus de continguts que tenen les administracions, els serveis públics i empreses privades, però per raons diverses legals i comercials són molt reticents a cedir-les.

Per això, el BSC va recórrer a Racó Català, un mitjà digital creat el març del 1999 que informa sobre el conjunt dels Països Catalans. A més de tenir més de 26.000 usuaris registrats i una audiència superior als 600.000 usuaris únics, té un fòrum per als lectors que ara ja recull més de 9,7 milions de missatges sobre més de 235.000 temes diferents.

Racó Català ha cedit de forma gratuïta aquest gran fons perquè el BSC pugui elaborar els models lingüístics i les eines informàtiques del projecte AINA.


Models lingüístics

Per elaborar un model en català cal tenir una quantitat de dades semblant a la que es necessita en anglès, castellà o qualsevol altra llengua, explica al 324.cat Carlos Rodríguez, de la Unitat de Mineria de Text del BSC:

"Pots fer el mateix que amb altres llengües si tens prou dades per fer-ho. El català és molt actiu a les xarxes i això fa que es puguin arribar a elaborar models."

A més, el fòrum conté moltes converses sobre temes concrets i això proporciona un marc que enriqueix els models lingüístics.

Seria molt difícil, explica Rodríguez, si es volgués fer la correcció normativa dels textos, "però es tracta només d'afegir variants i context que siguin representatius de com es fan les conversacions humanes dins i fora de la xarxa".

La feina es basa en l'aprenentatge automàtic (machine learning) i les xarxes neuronals, que imiten el procés d'adquisició de coneixements i de raonaments del cervell humà, tot i que hi ha un gran debat entre els especialistes sobre si es pot fer una analogia entre els dos processos.

Tots els missatges i les dades que s'utilitzin estaran anonimitzats i així s'elimina qualsevol problema d'intromissió en la intimitat de les persones o que s'arribin a conèixer identitats concretes. S'han eliminat els noms dels usuaris o qualsevol referència a correus electrònics o a xarxes socials que puguin contenir. Així, tant l'emissor com el receptor o altres persones esmentades seran indetectables.

L'objectiu és no només crear models de llenguatge, sinó també distribuir-los perquè les empreses els puguin utilitzar. Segons Rodríguez, "es tracta de crear infraestructura per al teixit industrial català d'aquest sector, que ja existeix". Serà aquest el que a partir d'aquesta feina podrà crear productes per comercialitzar o per al seu ús intern.

Així, amb el desenvolupament d'AINA les empreses del sector de la Intel·ligència Artificial tindran accés a tecnologia bàsica en català i això facilitarà i abaratirà la producció d'aplicacions digitals en la nostra llengua.


Beneficis per a empreses, administració i ciutadans

La indústria catalana en general també es beneficiarà de l'accés a eines intel·ligents en català per optimitzar els seus processos, internacionalitzar els seus productes gràcies a la traducció automàtica a altres llengües o per comunicar-se amb els seus clients via xatbots.

També se'n beneficiarà l'administració pública, que podrà optimitzar processos, reduir la càrrega administrativa i oferir millors serveis al ciutadà. I aquest també notarà les millores d'una administració més àgil, a més de tenir possibilitat d'accedir en català a molts productes digitals que actualment no s'ofereixen en aquesta llengua, com assistents de veu, subtitulació automàtica de continguts audiovisuals, videojocs, xatbots intel·ligents, suport al diagnòstic mèdic, plataformes europees de serveis digitals i d'altres.

El projecte es va desenvolupant i ja hi ha exemples de conjunts de dades i models de prova perquè l'usuari pugui comprovar com va, distribuïts amb llicències lliures en plataformes com Huggingface o Zenodo.

AINA també treballa el llenguatge oral i per això va engegar la campanya "La nostra llengua és la teva veu", per recollir milions de veus de diverses edats i variants dialectals per desenvolupar productes o serveis tecnològics en català.

 

ARXIVAT A:
Català Tecnologia
Anar al contingut