Google pornește AI Gemini, care combină text, cod, audio, imagine și video
Google Gemini este cel mai mare și cel mai capabil model AI de la Google. A fost construit de la zero pentru a fi multimodal, ceea ce înseamnă că poate generaliza și înțelege fără probleme, poate opera și combina diferite tipuri de informații, inclusiv text, cod, audio, imagine și video. Este un pas vital pentru a genera un boom pentru AI generativă.
Când credeam că ChatGPT va schimba lumea, aflăm că are un competitor puternic. Cu produsul său, OpenAI a deschis drumul spre o competiție acerbă în domeniu. Cel mai nou produs, Gemini de la Google pretinde a fi un tip fundamental nou de model AI și cel mai puternic al companiei de până acum.
Poate că OpenAI nu avea așteptări mari atunci când a lansat ChatGPT în noiembrie 2022. A fost pur și simplu un test al unei noi interfețe pentru modelele sale care generează text. Dar capacitatea chatbot-ului de a face o gamă atât de largă de lucruri, de la sintetizarea eseurilor și a poeziei până la a răspunde la problemele de codificare, a impresionat și deranjat deopotrivă mulți oameni și a pus pe jar industria. Când OpenAI a adăugat noua versiune, nenumărate voci au cerut încetinirea acestor tehnologii, însă pare că nimeni nu a ascultat. Acum Google intră agresiv în piață cu lansarea Gemeni.
Google a lansat deja un competitor direct la ChatGPT sub forma Bard la începutul acestui an. Cu Gemini susține că a deschis o nouă eră care depășește LLM-urile ancorate în principal pe text - potențial pregătind scena pentru o nouă rundă de produse AI semnificativ diferite de cele activate de ChatGPT.
Google numește Gemini un model „multimodal nativ”, ceea ce înseamnă că poate învăța din date dincolo de text, adăugând și informații din audio, video și imagini. ChatGPT arată cum modelele AI pot învăța o cantitate impresionantă despre lume dacă sunt furnizate suficient texte. Iar unii cercetători AI au susținut că simpla mărire a modelelor lingvistice le-ar crește capacitățile până la a rivaliza cu cele ale oamenilor.
Însă, până acum, capacitatea de învățare este condiționată și de textele încărcate. Au fost destule exemple când chat-bot-ul s-a încurcat, a distorsionat informațiile sau a oferit date neverificate. Gemini pare să fie altfel, cel puțin asta anunță producătorul. O combinație diferită cu programe de AI ar putea face o diferență uriașă în modul de operare al boților.
Gemeni nu se limitează doar la text. Modelul integrează perfect o gamă diversă de tipuri de date. Gemeni poate recunoaște imaginile și poate vorbi în timp real. Se pare că este de cinci ori mai puternic decât GPT-4, acest lucru fiind atribuit cipurilor TPUv5 de la Google. Procesarea mai rapidă înseamnă, în esență, că Gemeni este capabil să rezolve sarcini complexe cu ușurință. Este, de asemenea, primul model de inteligență artificială care depășește experții umani în raportul de referință MMLU, cu un scor de 90%. MMLU înseamnă Massive Multitask Language Understanding și este un test care acoperă 57 de subiecte din științe umaniste sau științe sociale.
Modelul de limbaj mare Gemini va avea trei dimensiuni diferite: Gemini Ultra, varianta cea mai capabilă; Gemini Pro, care se extinde într-o gamă largă de sarcini; şi Gemini Nano, pentru mobil.
Oricum, și OpenAI pare o companie deschisă pentru a susține această cursă pe termen lung. Un proiect misterios în curs de desfășurare la OpenAI, numit Q*, sugerează că compania explorează, de asemenea, idei care implică mai mult decât doar extinderea sistemelor precum GPT-4, arată publicația Wired.