Pintura d'un retrat vibrant de Salvador Dalí amb mitja cara robòtica generada per DALL·E 2 (OpenAI)

DALL·E 2, la sorprenent intel·ligència artificial que crea qualsevol imatge imaginable

L'empresa OpenAI, fundada per Elon Musk, presenta la segona versió d'un sistema d'intel·ligència artificial que és capaç de transformar en imatge qualsevol idea

Toni Noguera Martínez

Periodista del 324.cat especialitzat en tecnologia

09/04/2022 - 17.42Actualitzat21/10/2023 - 16.55

Dins la caixa de text, un investigador en intel·ligència artificial tecleja: "Mostra'm un astronauta cavalcant en cavall". Immediatament, la pantalla ofereix la imatge sol·licitada, en una precisió i definició mai vistes fins ara. Es tracta de DALL·E 2, la segona i millorada versió de la xarxa neuronal d'OpenAI que meravella tant experts com curiosos.

Fa poc més d'una dècada, l'única manera d'indicar un ordinador el resultat final que es buscava era a través de comandaments escrits en el llenguatge que entenia la màquina: un codi de programació informàtica. Tant la cerca com la resposta, a més, eren molt concretes. Les instruccions acabaven habitualment amb el comandament "\print" i els resultats que oferia es limitaven a la informació continguda en una base de dades preexistent.

Un astronauta cavalcant en estil fotogràfic, imatge generada per DALL·E 2 (OpenAI)

Sistemes d'aprenentatge automàtic com el DALL·E 2 són capaços d'entendre instruccions escrites en "llenguatge natural", és a dir, no és necessari conèixer cap tipus de codi per fer-li peticions. A més, els resultats que mostra no estan recollits en una base de dades perquè no existeixen prèviament. Els genera una intel·ligència artificial basant-se en els referents que se li han mostrat prèviament i que ha descodificat, assimilat i après.

Què és DALL·E 2?

DALL·E 2 és el nou sistema d'intel·ligència artificial que converteix qualsevol descripció textual en imatges i que acaba de presentar l'empresa de recerca en intel·ligència artificial OpenAI.

En una caixa de text, una persona introdueix la descripció del resultat que busca, incloent els elements que hi vol veure inclosos, l'estil (fotogràfic, pictòric, gràfic...) i les referències que consideri, fins i tot el to emocional, i DALL·E 2 genera una imatge original el més fidel possible al que se li demana.

Com més precisa és la descripció, més acurada és la imatge generada. Els resultats poden ser imatges realistes o artístiques i combinen els conceptes, atributs i estils que es vulguin.

DALL·E 2 és l'evolució del primer projecte que OpenAI va presentar el gener del 2021, DALL·E 1. El nom és fruit de la barreja de dues referències artístiques: per una banda, l'artista català Salvador Dalí i, per l'altra, el robot de la pel·lícula d'animació de Disney-Pixar "WALL·E".

En els primers dies de llançament de l'aplicació, alguns dels investigadors a qui se'ls ha donat accés n'han estat publicant els resultats més cridaners i un dels fundadors d'OpenAI, Sam Altman, va convidar els usuaris de Twitter a demanar qualsevol classe d'imatge per compartir el resultat generat per DALL·E 2:

pic.twitter.com/NGibmsgM8r
— Sam Altman (@sama) April 6, 2022

Amb DALL·E 2, OpenAI fa un pas de gegant en la precisió, realisme i qualitat de les imatges que genera i les funcionalitats que inclou. La resolució de les imatges que produeix la nova IA es multiplica per quatre, per passar dels 256 x 256 píxels de la versió inicial als 1.024 x 1.024 actuals. Més definició i, per tant, més realisme en el resultat.

La resolució de les imatges generades per DALL·E 2 ha multiplicat per quatre les que generava la versió de l'any passat, DALL·E 1 (OpenAI)

Amb la nova eina "inpainting", ara l'aplicació permet modificar imatges de forma molt precisa, i amb el mateix mecanisme. Així, és possible mostrar una imatge a DALL·E 2 i demanar-li que hi afegeixi, elimini o reemplaci qualsevol element. Les edicions que hi fa, també a partir de llenguatge natural, tenen en compte les ombres, els reflexos i les textures perquè el canvi s'integri de forma realista al context de la imatge.

DALL·E 2 és capaç de fer edicions realistes en les imatges, adaptant les textures, ombres, llums i reflexos al context (OpenAI)

Per últim, una de les noves funcionalitats que presenta DALL·E 2 és la de fer variacions d'una imatge generada prèviament o que s'hagi introduït prèviament a la xarxa neuronal per ser processada. En aquestes versions, la IA pot canviar-ne la perspectiva, les característiques de l'objecte protagonista, les expressions, els colors…

DALL·E 2 pot generar variacions d'una foto conservant-ne les característiques principals (OpenAI)

Com funciona DALL·E 2?

El sistema d'IA de DALL·E funciona a partir d'una xarxa neuronal, un sistema d'aprenentatge automàtic que imita el funcionament d'un cervell biològic, relacionant dades i reforçant aquells "enllaços sinàptics" que siguin recompensats. D'aquesta manera, DALL·E 2 aprèn la relació entre les imatges i el text que les descriu.

OpenAI explica, en l'article científic sobre DALL·E 2 que han publicat recentment, que l'eina utilitza un procés anomenat "difusió", que comença "amb un patró de punts aleatoris i altera gradualment aquest patró cap a una imatge" a mesura que va reconeixent patrons que corresponen a la descripció d'una imatge en concret.

Si l'objectiu és dibuixar un ull, per exemple, a poc a poc transforma el patró aleatori de punts inicial fins que forma una imatge ovalada, un patró concret que associa amb l'objectiu final, i hi va afegint detalls que relaciona cada vegada més a la idea que té assumida d'un globus ocular.

Qui ha fet DALL·E 2?

OpenAI és l'empresa sense ànim de lucre que ha dissenyat i entrenat DALL·E. Fundada el 2015, entre d'altres, per Elon Musk, la companyia té com a propòsit "garantir que la intel·ligència general artificial beneficiï tota la humanitat".

"La missió d'OpenAI és garantir que la intel·ligència artificial general (AGI), amb què ens referim a sistemes altament autònoms que superen els humans en les tasques més valuoses econòmicament, beneficiï tota la humanitat. Intentarem crear AGI segures i beneficioses, però també considerarem que s'ha complert la nostra missió si el nostre treball ajuda d'altres a aconseguir aquest resultat."

De moment, DALL·E només s'ha obert a investigadors, per precaució, però el gran públic pot gaudir d'experiències pròximes -tot i que més limitades- amb alternatives lliures que també generen imatges a partir de text en anglès.

La raó que dona OpenAI per no obrir l'accés a DALL·E 2 a tothom que ho vulgui provar és la seva voluntat de seguir desenvolupant i implementant "solucions basades en intel·ligència artificial de forma responsable" i que encara està "estudiant-ne les limitacions i possibilitats". Tenint en compte els preocupants biaixos que es detecten habitualment a la majoria d'algoritmes, la precaució en el desenvolupament de sistemes d'IA és una pràctica aplaudida per la majoria d'experts.

Una mà de robot pintant un retrat de selfie sobre un llenç, imatge generada per la IA de DALL·E 2(OpenAI)

De fet, en l'entrenament de DALL·E 2, els desenvolupadors d'OpenAI han volgut evitar la capacitat de la xarxa neuronal de generar imatges de violència, odi o continguts inapropiats, reduint l'exposició que la xarxa neuronal ha tingut a imatges només aptes per a adults. Tampoc permetran que es generin imatges amb contingut polític o que infringeixin les seves polítiques.

"Hem estat treballant amb experts externs i estem donant un accés previ de DALL·E 2 a un nombre limitat d'usuaris de confiança que ens ajudaran a conèixer les capacitats i limitacions de la tecnologia. Tenim previst convidar més persones [...] a mesura que aprenguem i millorem de manera iterativa el nostre sistema de seguretat."

En el món de la intel·ligència artificial és àmpliament coneguda la posició d'un dels fundadors d'OpenAI i executiu en cap de Tesla, Elon Musk, que considera la IA un perill existencial per a la humanitat i que, com a tal, s'ha de desenvolupar i regular amb molta cura. Segons Musk, les capacitats de la intel·ligència artificial superaran les humanes en els pròxims anys.

De moment, els dissenyadors gràfics comencen a comprovar com les capacitats de DALL·E 2 poden reemplaçar-los, com a mínim, en les tasques més senzilles de generació d'imatges.

ARXIVAT A:: Intel·ligència artificial Tecnologia Art Fotografia