Vestea bună despre clonele create cu ajutorul inteligenței artificiale este că ele nu își pierd niciodată vocea, au întotdeauna o postură perfectă și nici măcar o tornadă nu ar putea să le strice coafura. Vestea proastă este că acestea au ajuns să semene atât de mult cu persoanele reale încât, în unele cazuri, nici banca, nici familia nu își dau seama că vorbesc cu un robot, relatează The Wall Street Journal.
În ultimul timp se tot vorbește de roboți de chat, precum ChatGPT al companiei OpenAI sau Bard de la Google, sau despre generatoarele de imagini ca Dall-E. Există însă instrumente cu care oamenii pot acum să șteargă și mai mult linia de separare dintre inteligența artificială și cea umană.
„În ultimele luni, am testat Synthesia, un instrument care creează avataruri cu inteligență artificială din videoclipuri și înregistrări audio (numite și deepfakes)”, scrie jurnalista Joanna Stern. „Tastează orice și avatarul tău video îți spune textul înapoi ca un papagal.”
Stern a înregistrat 30 de minute de imagini video și aproape 2 ore de audio pe care Synthesia le-a folosit pentru a-i antrena clona. Câteva săptămâni mai târziu, AI Joanna era gata să dea piept cu realitatea.
Apoi, Stern s-a folosit de avatarul ei inteligent și de ChatGPT ca să încerce să vadă dacă această clonă o poate înlocui în timpul filmărilor, a întâlnirilor online și în convorbirile telefonice.
La un moment dat, AI Joanna ar putea să scrie articole și să prezinte videoclipuri. Pentru moment, ea este cea care poate ilustra cel mai bine lama cu două tăișuri a instrumentelor de generare de voce și imagine AI.
Ca să apari într-o filmare este nevoie de mult timp și efort: cineva trebuie să îți aranjeze părul, să îți facă machiajul și să opereze camerele, luminile, microfoanele și așa mai departe. Synthesia promite să facă întreg acest proces unul inutil și de aceea corporațiile au început deja să apeleze la serviciile lor.
Cu programele de acest gen nu mai este nevoie ca firmele să plătească actori care să apară în videoclipuri de prezentare sau de instruire a angajaților. Cu doar 1.000 de dolari pe an, acestea pot crea și gestiona un avatar personalizat (sau, pentru o sumă mult mai mică, un avatar de stoc).
Clonele virtuale, tot mai greu de deosebit de realitate. „Mă uitam ca la reflexia mea din oglindă”
Cu ajutorul ChatGPT, Stern a scris un text scurt pentru un videoclip de TikTok cu sfaturi despre sistemul de operare iOS rostit de vocea jurnalistei.
„A fost ca și când mă uitam la reflexia mea dintr-o oglindă, lipsită totuși de gesturile cu mâna și de expresiile faciale”, scrie Stern. „Pentru propoziții rapide, avatarul poate fi destul de convingător. Cu cât este mai lung textul, cu atât natura sa de robot își face simțită prezența”.
Pe TikTok, unde oamenii au capacitatea de concentrare a unui peștișor de aur, aceste asemănări cu un program de calculator nu sunt atât de evidente.
Robotul din AI Joanna și-a făcut imediat simțită prezența, însă, în timpul unei conferințe video. Postura ei perfectă și faptul că îi lipsește simțul umorului au fost indicii clare pentru colegii lui Stern că nu se adresează unei persoane reale.
Synthesia lucrează acum la avataruri care dau din cap și ridică din sprâncene, printre alte gesturi nou dobândite, ceea ce le va face să pară mult mai reale.
Pentru convorbirile telefonice cu sora ei și cu directorul executiv al Snap, Stern a folosit o clonă audio a sa generată de ElevenLabs, un dezvoltator de programe de manipulare a vocii.
Cu 90 de minute de înregistrări audio în care se aude glasul lui Stern, programul a reușit să îi cloneze vocea în doar două minute. Acum, tot ce trebuia ea să facă era să introducă o propoziție, iar clona ei o enunța cu voce tare.
Robotului virtual i-a fost mai ușor să păcălească banca decât familia femeii clonate
Sora ei, cu care Stern vorbește la telefon de câteva ori pe săptămână, a spus că robotul a sunat exact ca jurnalista, dar că și-a dat într-un final seama că ceva nu este în regulă din cauză că clona ei nu face pauze în vorbire. De ce ar face-o, din moment ce nu are nevoie să respire?
Când și-a sunat tatăl căruia i-a cerut codul numeric personal, acesta a început să se îndoiască de natura interlocutorului doar pentru că textul rostit de clona lui Stern suna ca o înregistrare a vocii ei.
Clona ei audio, însă, a fost de ajuns pentru a păcăli sistemul biometric audio al cardului bancar al lui Stern. Când a auzit vocea robotului, sistemul a recunoscut-o ca aparținând jurnalistei și a redirecționat-o imediat către un reprezentant al băncii.
Având în vedere cât de ușor a fost să creeze o clonă care să păcălească sistemul de siguranță al băncii, orice persoană cu acces la internet ar putea să fure câteva ore de înregistrări audio cu o altă persoană pe care o poate imita cu un singur click.
Ambele sisteme mi-au permis să generez niște lucruri oribile cu vocea mea, inclusiv amenințări cu moartea.
„Sigur, este clar că eu nu sunt clona mea video, dar [tehnologia] va deveni din ce în ce mai bună”, scrie Stern. „Și dacă proprii mei părinți și sora mea nu au putut cu adevărat să audă diferența din vocea mea, pot să mă aștept de la alții să o facă?”
Spre deosebire de AI Joanna care nu zâmbește niciodată, adevărata Joanna a descoperit cu fericire că ChatGPT generează text din care lipsește personalitatea și expertiza persoanei reale, iar clonei video îi lipsesc tocmai lucrurile care o fac pe Stern să fie autentică.
Cu toate că o voce AI poate avea și ea utilitatea ei, vocea reală are mai multă energie, emoție și cadență.
Va deveni vreodată inteligența aritificală mai bună? Cu siguranță. Dar plănuiesc să folosesc aceste instrumente ca să îmi ofer mai mult timp să fiu un om real. Între timp, acum măcar stau mult mai dreaptă în timpul întâlnirilor.