Imatge que ha utilitzat Google per anunciar el nou model d'intel·ligència artificial, Gemini (Google)

Les tres principals diferències entre ChatGPT i Gemini, la potent alternativa d'IA de Google

Claus i novetats de Gemini, el potent model d'intel·ligència artificial multimodal de Google, amb més potencial que ChatGPT i tres versions

Toni Noguera Martínez

Periodista del 324.cat especialitzat en tecnologia

07/12/2023 - 16.55

Han trigat una mica més del que s'esperava, però Google ha fet el pas previst de forma prou contundent: Google ha presentat Gemini, el seu model d'intel·ligència artificial "més capaç i general" fins ara. Els números prometen més potencial que la seva competència directa, els models GPT d'OpenAI.

La resposta inicial de Google a ChatGPT, Bard, que va ser rebuda de manera molt freda pels usuaris, i també pels mercats, queda ara actualitzada i àmpliament superada amb l'anunci de Gemini d'ahir dimecres.

"Sempre hem vist el nostre objectiu com una missió atemporal: organitzar la informació del món i fer-la universalment accessible i útil. Però a mesura que la informació ha crescut en escala i complexitat, el problema s'ha fet més difícil. Així que sempre hem sabut que havíem de tenir un avenç profund per seguir progressant", Sundar Pichai, director executiu d'Alphabet, l'empresa matriu de Google.

Les tres diferències

Quines són les claus i novetats d'aquest nou model que s'esperava des de fa mesos, però del qual no es coneixien gaires detalls? Per què asseguren que és un model superior a GPT? Quan es podrà començar a provar i on?

Descobrim les tres grans diferències entre ChatGPT i Gemini, que, per començar, demostra de nou que hi ha una autèntica carrera en el desenvolupament d'IA i que només els grans jugadors hi poden participar.

En aquesta competència accelerada hi destaquen dos grans participants: OpenAI, amb els milions i la indispensable infraestructura de Microsoft, i el gegant que s'havia quedat enrere i s'ha despertat de cop, Google, amb l'experiència i els prestigiosos cervells de Google Deepmind.

1. Gemini, multimodal des de la concepció

Una de les principals diferències entre Gemini els models GPT d'OpenAI és que la flamant aposta de Google s'ha concebut com un model multimodal des de l'inici del desenvolupament, és a dir: no és només un gran model de llenguatge connectat a altres amb altres capacitats, sinó que s'ha concebut directament amb el potencial d'interpretar també veu, documents i imatges.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
OpenAI (@OpenAI) September 25, 2023

El 25 de setembre, OpenAI anunciava que ChatGPT incorporava tecnologia per "veure-hi, escoltar i parlar", gràcies a la incorporació de models com GPT-4V.

Mentre un ChatGPT amb capacitat d'interpretar imatges és el resultat d'unir GPT a models com GPT-4V o GPT-4 amb Vision (el model d'OpenAI que pot "comprendre" imatges), models que interpreten la veu humana i models que generen parla artificial, Gemini s'ha desenvolupat des de l'inici amb la capacitat de processar i donar informació en qualsevol format.

"Hem dissenyat Gemini per ser multimodal de manera nativa, preentrenat des del principi en diferents modalitats."

"Fins ara, l'enfocament estàndard per crear models multimodals implicava entrenar components separats per a diferents modalitats i després unir-los per imitar aproximadament algunes d'aquestes funcionalitats", diu Google en l'article de presentació de Gemini.

Gemini és capaç d'interpretar textos, gravacions de veu i diàlegs, documents, imatges, línies de codi informàtic, i vídeos, així com donar respostes en tots aquests formats (excepte, encara, vídeo), tal com Google ha demostrat en vídeos com el següent en què ajuda a resoldre deures de matemàtiques, interpretant tant text mecanografiat com manuscrit en imatges i fins i tot genera exercicis interactius per repassar la temàtica.

2. Tres versions de Gemini 1.0

La resposta de Google a la revolució d'OpenAI, amb aplicacions tan exitoses com ChatGPT, ha arribat amb tres versions diferenciades per la seva capacitat, un canvi respecte als llançaments de models que s'han anat produint fins ara.

La diferenciació està pensada per monetitzar de forma més eficient diferents versions, més o menys intenses (i cares) en el seu consum de recursos energètics i de processament, de forma similar al que fa OpenAI amb les versions ChatGPT Plus, per als subscriptors de pagament, o els GPTs, la versió empresarial de ChatGPT.

Gemini Ultra és la versió més avançada, la "més gran i més capaç" del nou model Gemini 1.0. En principi, serà una eina orientada a empreses, no veurà la llum fins al 2025 i serà destinada a resoldre "tasques d'alta complexitat".

Mentre encara no es presenta a un grup inicialment acotat de persones i organitzacions, Google es dedica a completar-ne "exhaustius controls de confiança i seguretat, inclosos processos de red teaming" per part d'organitzacions externes de confiança, i "perfeccionant encara més el model" amb aprenentatge de reforç --basat en comentaris d'equips humans-- abans d'alliberar-lo totalment en dos anys.
Gemini Pro és una versió més equilibrada en el consum de recursos i capacitats, la versió destinada a les aplicacions de consum per al gran públic. De moment, Google ha confirmat que facilitarà Gemini Pro als seus "milers de milions d'usuaris a través dels productes" de l'empresa (Search, Ads, Chrome, Duet AI...).

De fet, una versió de Gemini Pro ja es troba a Bard, el xat intel·ligent de Google que acaba de ser actualitzat amb capacitats de "raonament avançat, planificació, comprensió i més". Google ha confirmat que estarà disponible en més de 170 països en anglès, tot i que en principi no hauria de tenir problema en comprendre altres idiomes i donarà suport a altres llengües "en el futur pròxim".

Gemini Nano és la versió més reduïda de Gemini 1.0. La més eficient, també, pensada per funcionar dins de dispositius i en taques concretes. Aquesta versió és una de les principals diferències amb GPT, que a part d'oferir aplicacions com ChatGPT que es connectaven als servidors de Microsoft per donar respostes, no comptava amb versió específica per funcionar a escala de, per exemple, els telèfons.

Per començar, Google posarà Gemini dins la seva pròpia línia de telèfons, els Pixel. El Pixel 8 Pro és ja, avui, el "primer telèfon intel·ligent dissenyat per executar Gemini Nano". Algunes de les seves noves funcions, que es demostren en el seu vídeo de presentació, són funcions com "Resumeix" en l'aplicació de gravació, millores en el processament fotogràfic, com la il·luminació millorada en els autoretrats, o respostes intel·ligents ("Smart Reply") en el teclat digital de Google, Gboard, començant en aplicacions com WhatsApp, i altres apps de missatgeria "l'any que ve".

3. Un model més potent que GPT-4

L'aspecte més comentat de Gemini 1.0 és el nivell d'excel·lència que, segons Google, ha demostrat en la gran majoria de proves àmpliament establertes en el món acadèmic per mesurar les capacitats dels models d'IA.

Tot i evitar mencionar GPT-4 en la majoria dels vídeos de presentació, Google ha deixat clar qui considera el seu principal competidor: OpenAI amb la presentació dels resultats d'aquestes proves.

En concret, Gemini se situa per davant de GPT-4, que fins ara marcava el màxim estàndard de qualitat en models d'IA, en 30 dels 32 testos als quals s'ha sotmès.

Per un cantó, s'ha posat a prova Gemini en la seva capacitat de processar i generar informació textual. En aquest apartat, del que només han transcendit els resultats de 8 proves, GPT-4 només supera Gemini en un test anomenat HellaSwag que mesura "raonament de sentit comú i tasques quotidianes".

Per l'altra banda, Google ha posat davant per davant Gemini amb el model multimodal GPT-4V, i tot apunta que les capacitats del model de Google estan molt per sobre en aquest aspecte.

Resultats de les proves de capacitat multimodal que ha realitzat Google a Gemini comparades amb GPT-4V(Google)

Més enllà de les capacitats de Gemini, que aviat es podran comprovar de forma oberta, començant pel nou Bard i els Pixel 8 Pro, Google ha insistit repetidament en el fet que el seu desenvolupament ha estat "ambiciós i responsable", dos conceptes de difícil equilibri.

Fins ara, es criticava sovint a Google i, especialment, al seu CEO, Sundar Pichai, per la lentitud dels seus avenços en l'àmbit de la IA. Google assegura que han anat lents per anar segurs, un extrem que s'haurà de confirmar amb el temps i les proves que es puguin fer amb Gemini.

El director executiu de Google, Sundar Pichai, ho explica en l'article de presentació de Gemini: "Abordem aquest treball amb valentia i responsabilitat. Això significa ser ambiciosos en la nostra investigació i buscar les capacitats que aportaran enormes beneficis a persones i societat, alhora que construïm salvaguardes i treballem amb governs i experts per abordar els riscos a mesura que la IA sigui més capaç."

Pichai assegura que Google continuarà invertint en "les millors eines, models fundacionals i infraestructura" guiats pels principis d'IA de la companyia.

ARXIVAT A:: Tecnologia Intel·ligència artificial