Altaveu personalitzat Echo Dot de 4a generació d'Amazon que apareix en l'anunci que ha fet l'empresa sobre el sintetitzador de veus que estan provant pel seu assistent de veu, Alexa (Amazon)

Amazon ensenya a Alexa a reproduir la veu de qualsevol persona, viva o morta

Una breu nota de veu de WhatsApp seria suficient per fer dir a l'assistent de veu de l'imperi del comerç electrònic qualsevol cosa que imaginem, una funció que genera dubtes ètics

Toni Noguera Martínez

Periodista del 324.cat especialitzat en tecnologia

27/06/2022 - 11.27Actualitzat21/10/2023 - 16.27

A l'hora d'anar a dormir, un infant s'acosta al seu assistent de veu, que descansa sobre la tauleta de nit, i li demana: "Alexa, podria l'àvia acabar de llegir-me 'El màgic d'Oz'?" Dit i fet, la veu de l'àvia de l'infant comença a sentir-se a través de l'altaveu intel·ligent. Abans de morir, tanmateix, l'àvia mai s'havia arribat a gravar llegint el conte, i és que això, assegura Amazon, no es tracta de cap gravació.

Amazon ha presentat una de les novetats més cridaneres amb què estan experimentant per al seu assistent de veu: un sintetitzador capaç de clonar els trets característics de la veu de qualsevol persona, viva o morta, a partir --afirmen-- de menys d'un minut d'àudio d'exemple, en comptes de les hores i hores de gravacions que es fan servir habitualment per a aquest fi. Una nota de veu de WhatsApp seria suficient per fer-li dir, llegir o explicar qualsevol cosa que imaginem.

El gegant tecnològic ha mostrat aquesta possibilitat en la seva tecnooptimista conferència anual sobre innovacions tecnològiques re:MARS a través de les explicacions de Rohit Prasad Wiki, un dels principals cervells que hi ha darrere les converses naturals que els clients d'Amazon mantenen amb l'assistent de veu de la companyia, Alexa.

Fins ara, Amazon havia estat ensenyant a Alexa a identificar les veus dels seus diferents usuaris per oferir-los resultats personalitzats, i també fa temps que és possible canviar la veu del seu assistent intel·ligent per una altra de la llista d'opcions disponibles. Però fins ara mai havia plantejat la idea de poder donar qualsevol veu a Alexa.

Per a molts, aquest experiment recorda invariablemet un dels episodis més pertorbadors de "Black Mirror", "Be Right Back", en què una dona recupera progressivament la presència del seu marit mort per fer-li companyia. Però les eines que tenen funcions similars, els deepfakes d'àudio, són cada cop més habituals.

"Estem vivint, inqüestionablement, en l'era daurada de la intel·ligència artificial, on els somnis i la ciència-ficció s'estan convertint en realitat."

Ni Prasad ni la companyia han explicat si aquesta funció amb què experimenten arribarà en algun moment als seus milions d'usuaris, que el converteixen en un dels assistents de veu més utilitzats del món.

A Amazon diuen que perquè confiem en una intel·ligència artificial és clau dotar-la d'atributs humans com l'empatia i l'afecte, i que les converses naturals i les veus humanes hi ajuden. No ajudaria a l'objectiu que la nostra IA se senti com un element estrany a casa nostra.

Precisament, abans de presentar la demo del sintetitzador de veu, Prasad explicava com estan treballant per fer aprendre la distribució d'una casa al seu robot mòbil, Amazon Astro, per permetre que la seva intel·ligència artificial identifiqui millor els espais i els objectes per on s'hagi de moure.

Aquesta és precisament una de les crítiques més habituals dels investigadors en ètica per la intel·ligència artificial: s'està treballant molt més intensament a fer que els algoritmes se sentin propers que no per assegurar que realment mereixin la nostra confiança.

Recrear persones difuntes, tendència a l'alça

Fer un deepfake d'àudio està sent cada vegada més senzill gràcies a les millores en les tècniques d'aprenentatge automàtic. Amb moltes menys dades i temps d'entrenament que fa un parell d'anys, les IA estan aprenent a fer imitacions molt pròximes a la realitat. Recentment, una intel·ligència artificial basada en el model de llenguatge GPT-3 va ser capaç d'inventar un monòleg que després van passar per un sintetitzador de veu que recreava la de Jerry Seinfeld.

Fa uns anys es va fer viral el cas d'una dona, Eugenia Kuyda, que va tornar a poder conversar amb el seu amic mort a partir de milers de missatges de xat i correus electrònics que conservava. Molts encara recorden la història d'una mare que va tornar a veure i parlar amb la seva filla, morta als 7 anys, gràcies a una simulació en realitat virtual:

Fa uns quants anys que es treballa per manipular les gravacions d'àudio i ja és tan senzill com escriure qualsevol cosa per fer creure que la persona que hem gravat l'ha dit realment. Eines ja disponibles avui, com Synthesia, poden fer vídeos de persones a qui poden fer dir qualsevol cosa que s'escrigui, fins i tot amb la seva mateixa imatge i veu, però també podem pujar una petita gravació nostra per generar una veu digital que ens imita de manera molt creïble, amb serveis com Lyrebird.

També existeixen empreses, com HereAfter, que proposen enregistrar gravacions de veu de les persones estimades abans de morir, per poder deixar en llegat un model de llenguatge que els permeti mantenir el lligam i les converses després de la seva mort.

A mesura que augmenten les capacitats dels sistemes basats en aprenentatge automàtic, cada cop és més evident una idea: un vídeo o una gravació de veu ja no són una prova irrefutable de res.

ARXIVAT A:: Intel·ligència artificial Tecnologia Amazon