Fotograma d'un vídeo generat per Sora, l'eina d'IA d'OpenAI per crear vídeos a partir d'instruccions escrites (OpenAI)

Què és Sora, la inquietant eina d'intel·ligència artificial que crea vídeo a partir de text

OpenAI s'avança als competidors que també treballen en generació de vídeo d'alta qualitat a partir d'instruccions senzilles, com Runway, Pika o Google

Josep Maria Camps Collet / Toni Noguera Martínez16/02/2024 - 13.21Actualitzat16/02/2024 - 21.37

OpenAI, l'empresa que va revolucionar la intel·ligència artificial, la IA, fa poc més d'un any amb el llançament del ChatGPT, ha fet públic aquest dijous Sora, una nova eina que transforma text en vídeo d'alta qualitat.

Els resultats són espectaculars, però també inquietants, perquè és una eina que aparentment permet crear amb facilitat vídeos falsos de persones reals, per exemple, i encara no hi ha sistemes que permetin identificar que han estat generats artificialment.

L'anunci l'ha fet a les xarxes socials el màxim responsable d'OpenAI, Sam Altman, i un dels desenvolupadors de l'eina, Bill Peebles, ha publicat un dels primers vídeos: una parella passejant per un Tòquio nevat:

"Sora és aquí! És un transformador que pot generar fins a un minut de vídeo de 1.080 p amb una gran coherència i qualitat."

Sora is here! It's a diffusion transformer that can generate up to a minute of 1080p video with great coherence and quality. @_tim_brooks and I have been working on this at @openai for a year, and we're pumped about pursuing AGI by simulating everything! https://t.co/DzbyReLJEc pic.twitter.com/IFqfh8H6FW
Bill Peebles (@billpeeb) February 15, 2024

Generats en poca estona i amb poques instruccions

Segons ha afirmat Altman, Sora pot generar aquests vídeos en poca estona. Per demostrar-ho ha reptat els usuaris d'X a proposar vídeos i n'ha penjat alguns dels resultats:

- "Una cursa a l'oceà, gravada amb un dron, amb diferents animals com a atletes pedalant en bicicleta."

https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
Sam Altman (@sama) February 15, 2024

- "Una classe de cuina d'una àvia influencer a les xarxes socials amb una recepta de nyoquis casolans, ambientada en una cuina rústica de la Toscana amb il·luminació cinematogràfica."

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
Sam Altman (@sama) February 15, 2024

- "Una cursa futurista de drons al capvespre al planeta Mart."

https://t.co/P26vJHlw06 pic.twitter.com/AW9TfYBu3b
Sam Altman (@sama) February 15, 2024

Segons OpenAI, Sora també permet convertir imatges estàtiques en vídeos i modificar o ampliar vídeos existents, canviant-ne part del contingut o el fons i afegint-hi fotogrames al davant o al darrere.

Accés tancat al públic general

Altman ha fet l'anunci a Twitter/X pocs minuts abans del primer vídeo publicat per Peebles. Ha ofert l'enllaç a la pàgina de Sora i ha dit que l'accés per utilitzar-la encara no està obert.

Segons ha dit, només l'han ofert a alguns artistes digitals perquè en provin les possibilitats, i també a equips vermells, és a dir, grups d'especialistes que analitzaran els riscos potencials de l'eina:

"Avui comencem a formar equips vermells i oferim accés a un nombre limitat de creadors."

here is sora, our video generation model:https://t.co/CDr4DdCrh1

today we are starting red-teaming and offering access to a limited number of creators.@_tim_brooks @billpeeb @model_mechanic are really incredible; amazing work by them and the team.

remarkable moment.
Sam Altman (@sama) February 15, 2024

OpenAI afirma que Sora, que vol dir cel en japonès, és capaç de crear "escenes complexes amb diversos personatges, tipus de moviment concrets i detalls precisos del tema i el fons".

També explica que reprodueix fidelment la realitat i el moviment d'acord amb les lleis de la física, tot i que admet que "pot tenir problemes per simular amb precisió la física d'una escena complexa."

Enorme evolució en un any amb molta competència en joc

Amb la presentació de Sora, l'empresa liderada per Altman s'avança a altres empreses que li estaven fent ombra en aquest terreny, com Runway, Pika o Google, amb la seva eina Lumiere.

El cert és que l'evolució de les eines per convertir text en vídeo ha fet un salt enorme en només un any, com mostra el contrast entre els dos exemples d'aquest tuit:

?text to video progress in one year?

2023: 2024: pic.twitter.com/gK57GmFAHv
Sam Sheffer (@samsheffer) February 15, 2024

El perill que imatges falses passin per autèntiques

L'espectacularitat de les imatges generades amb Sora no amaguen el problema enorme que es planteja ara: per exemple, la possibilitat que apareguin vídeos polèmics amb personatges reals que siguin falsos.

Segurament serà una de les línies de treball principals dels equips vermells, i una possible solució és incloure marques d'aigua a les metadades dels vídeos que certifiquin que estan generats amb IA.

De fet, OpenAI ha anunciat fa poc que afegirà marques a les imatges generades amb ChatGTP i Dalle-3. De fet, farà servir les que està desenvolupant la Coalició per a la Procedència i l'Autenticitat del Contingut, la C2PA.

Les marques d'aigua es poden eliminar fàcilment

Aquesta organització, fundada el 2019 per iniciativa de l'empresa Adobe, i a la qual s'han afegit gegants com Microsoft, Google o Sony, treballa per crear sistemes per evitar l'ús fraudulent de les imatges d'IA.

De moment, però, només hi ha marques d'aigua disponibles per a imatges estàtiques, però no per als textos i per als vídeos que també es creen fent servir aquestes eines generatives.

El problema és que les metadades de les imatges són fàcils d'eliminar, de manera que caldrà avançar en aquest tipus de certificacions, que és, precisament, el que reclamen les legislacions dels EUA i de la UE.

Un problema afegit és el dels drets de les imatges: no està clar quines ha fet servir Sora per entrenar-se i pot reproduir-se el problema que ja hi ha amb les altres eines d'IA, tant de text com d'imatges fixes.

ARXIVAT A:: Tecnologia Internet Intel·ligència artificial