Emma Watson no ha llegit un fragment del Mein Kampf publicament

Emma Watson llegint el "Mein Kampf", un àudio fals generat per intel·ligència artificial

Als deepfakes en vídeo se'ls afegeixen progressivament programes que sintetitzen veus conegudes i permeten fer-los dir qualsevol cosa

Carlos Baraibar

Subdirector de "La tarda de Catalunya Ràdio" i responsable de "Fets o fakes"

@carlosbaraibar

01/02/2023 - 13.29 Actualitzat 01/02/2023 - 18.26

Des de fa un temps ens estem familiaritzant amb la tecnologia deepfake, que permet fer vídeos recreant el rostre de persones famoses situades en contextos falsos i que, de vegades, ha portat a confusions.

Amb el que encara no estem tan familiaritzats, però, és amb la tecnologia que permet generar de manera artificial la veu de persones conegudes. És el que ha passat amb una start-up anomenada Eleven Labs, que ha caigut a les mans dels sospitosos habituals de 4chan, una mena de Forocoches dels Estats Units des d'on han sorgit milers de mems, polèmiques i discursos conspiranoics, racistes, supremacistes, homòfobs o misògins.

El cas és que l'empresa Eleven Labs, formada per extreballadors de Google o Palantir, havia penjat en els últims dies una versió beta del seu software que permet tant sintetitzar noves veus com clonar-ne de ja existents. Amb aquesta versió beta, alguns usuaris van aprofitar per imitar les veus d'Emma Watson i altres personatges coneguts als Estats Units (Ben Shapiro, el personatge de Rick a "Rick and Morty") i fer-los llegir consignes racistes, homòfobes o violentes en general.

La mateixa empresa ha reconegut que, tot i que la seva aplicació s'ha fet servir en molts casos amb intencions positives, també han detectat mals usos que miraran de corregir.

En aquest fil, l'empresa explica que pot rastrejar els àudios generats a la seva plataforma fins als usuaris finals, però que, tot i així, està considerant demanar identificacions més completes perquè no es pugui fer un ús incorrecte de la seva tecnologia de manera anònima.

El deepfake d'àudio, igual que el de vídeo

Tal com passa amb els deepfakes en imatges, els d'àudio són una aplicació nova que permet la computació massiva de dades. Aquesta mena de softwares es poden entrenar amb milers i milers d'hores de veus diverses que, convertides en dades, es poden acabar clonant o recomponent de la manera que es decideixi.

Per entendre'ns, el funcionament seria que la intel·ligència artificial "aprèn" de la veu original, la replica en format de dada i, a partir d'aquí, la pot reconstruir per fer-li dir pràcticament qualsevol cosa.

Per bé o per mal, ens haurem d'anar acostumant a aplicar una mirada crítica a qualsevol àudio que hàgim pogut sentir i que, per context o per versemblança, ens faci dubtar de la seva veracitat.

Altres projectes per crear veus del no-res

L'empresa Eleven Labs no és l'única que treballa per clonar o sintetitzar veus. De fet, aquesta és una aplicació amb què ja interaccionem cada dia quan parlem amb Alexa o altres assistents.

Fa uns mesos, la Generalitat mateixa va posar en marxa la recollida de veus per al Projecte Aina, per generar un assistent que parli en català i que es pugui integrar en els aparells d'Amazon, Google o similars.

En aquest cas, ens trobem davant d'un projecte cooperatiu en què se'ns demana llegir una sèrie de frases per entrenar la intel·ligència artificial, que acabarà fent servir tot el que ha "sentit" per generar una nova veu, la de l'Aina, amb els retalls de tot el que ha après. Com la resta, amb el que aprengui Aina podrà reproduir tant frases que han dit les persones que l'han entrenat com qualsevol altra frase que no hagi dit mai ningú.