Ne pierdem istoria digitală. 25% dintre toate paginile web care au existat la un moment dat între 2013 și 2023 nu mai sunt accesibile

Data publicării:
Backview,Of,Caucasian,Woman,Looking,At,Animated,Stream,Of,Online
Arhiva digitală a omenirii. Imagine cu caracter ilustrativ. Foto: Shutterstock

Cercetările arată că 25% dintre paginile web postate între 2013 și 2023 au dispărut. Câteva organizații se străduiesc să salveze ecourile web-ului, însă noi riscuri le amenință însăși existența, scrie BBC. Web-ul este adesea considerat ca un loc în care conținutul durează pentru totdeauna. Însă mari părți ale acestuia se pierd pe măsură ce paginile sunt șterse sau mutate, potrivit unor noi cercetări.

Datorită fragmentelor de papirus, mozaicurilor și tăblițelor de ceară care au supraviețuit vremurilor, este posibil să aflați ce mâncau oamenii din Pompei la micul dejun acum 2.000 de ani. Dacă înțelegeți suficient limbajul medievală, puteți afla câte animale erau crescute în fermele din Northumberland în Anglia secolului al XI-lea - datorită Domesday Book, cel mai vechi document păstrat în Arhivele Naționale ale Regatului Unit. Prin scrisori și romane, viețile sociale ale epocii victoriene - inclusiv pe cine iubeau și pe cine urau oamenii - devin accesibile oricui.

Istoria noastră digitală, în pericol

Însă istoricii viitorului ar putea avea dificultăți în a înțelege pe deplin modul în care ne trăiam viața la începutul secolului XXI. Acest lucru se explică prin combinații potențial distrugătoare de istorie între modul în care ne trăim viața în mod digital și lipsa eforturilor oficiale de a arhiva informațiile din întreaga lume așa cum sunt ele produse în zilele noastre.

Dintre paginile web care existau în 2013, de exemplu, 38% sunt acum pierdute. Chiar și paginile mai noi dispar: 8% dintre paginile care existau în 2023 nu mai sunt disponibile.

Aceste pagini tind să dispară atunci când sunt șterse sau mutate. Conform studiului realizat de Pew Research Center, acest lucru se întâmplă mai degrabă în cazul site-urilor web funcționale, decât atunci când dispar site-uri web întregi.

Dispar mari cantități de știri și conținut de referință

Efectul înseamnă că dispar cantități mari de știri și conținut de referință important. Potrivit studiului, aproximativ 23% dintre paginile de știri includ cel puțin un link rupt, iar 21% dintre site-urile guvernamentale, iar 54% dintre paginile Wikipedia includ în referințele lor un link care nu mai există.

Internetul conține sute de miliarde de pagini web indexate. Majoritatea oamenilor îl folosesc și se bazează pe el pentru a accesa cărți, imagini, articole de știri și alte resurse. Acest conținut dispare însă. Ce soluții există?

Pentru conținutul mai vechi, tendința este mai accentuată

O analiză publicată în 2024 de Pew Research Center din San Francisco arată cât de efemer este de fapt conținutul online. Un sfert dintre toate paginile web care au existat la un moment dat între 2013 și 2023 nu mai sunt accesibile. În majoritatea cazurilor, acest lucru se întâmplă deoarece o pagină individuală a fost ștearsă sau eliminată de pe un site care, în rest, funcționează.

Pentru conținutul mai vechi, această tendință este și mai accentuată. Aproximativ 38% din paginile web care existau în 2013 nu mai sunt disponibile astăzi. Pew Research Center a examinat linkurile care apar pe site-urile guvernamentale și de știri, precum și cele din secțiunea „Referințe” de pe paginile Wikipedia.

Analiza a constatat că 23% dintre paginile web de știri conțin cel puțin un link inactiv, la fel ca și 21% dintre paginile web ale site-urilor guvernamentale. Site-urile de știri, indiferent de nivelul de trafic, sunt la fel de susceptibile să conțină linkuri inactive. 54% dintre paginile Wikipedia conțin cel puțin un link în secțiunea „Referințe” care indică o pagină care nu mai există.

1 din 5 tweet-uri nu mai e vizibil public după câteva luni de la postare

În ceea ce privește rețelele sociale, a fost colectat și un eșantion în timp real de tweet-uri în de pe platforma X (fostă Twitter). Aproape unul din cinci tweet-uri nu mai este vizibil public pe site la doar câteva luni după ce a fost postat, scrie The Independent. În 60% dintre aceste cazuri, contul care a postat inițial tweet-ul a fost făcut privat, suspendat sau șters complet. În celelalte 40%, utilizatorul a șters tweet-ul individual, dar contul încă exista.

Anumite tipuri de tweet-uri dispar mai frecvent decât altele. Peste 40% dintre tweet-urile scrise în turcă sau arabă nu mai sunt vizibile pe platformă la trei luni după ce au fost postate. De asemenea, tweet-urile de la conturile cu setări de profil implicite au o probabilitate mai mare să dispară din vizualizarea publică.

De multe ori, un utilizator care dorește să acceseze ceva pe internet vede următorul mesaj: „404 Not Found”. Aceasta înseamnă că pagina nu mai există pe serverul gazdă sau serverul gazdă în sine nu mai există.

Sunt zeci de coduri de stare care indică o problemă pe care un utilizator ar putea să o întâmpine atunci când încearcă să acceseze o pagină. Nu toate indică definitiv dacă pagina este definitiv nefuncțională sau doar temporar indisponibilă. Apoi, din motive de securitate, multe site-uri încearcă activ să prevină colectarea automată de date.

Cercetarea Pew Research Center

Pew Research Center a analizat și 500.000 de pagini de pe 2.063 de site-uri clasificate drept „Știri/Informații”. Pe aceste site-uri de știri erau mai mult de 14 milioane de linkuri care duceau către site-uri externe. 5% dintre toate linkurile de pe paginile site-urilor de știri nu mai sunt accesibile. În plus, 23% din toate paginile eșantionate conțineau cel puțin un link nefuncțional.

În ceea ce privește linkurile de referință pe Wikipedia, analiza arată că 11% nu mai sunt accesibile, iar 53% dintre pagini conțineau cel puțin un link nefuncțional.

Variantă salvatoare

În aceste condiții, poate Wayback Machine al Internet Archive să salveze lumea digitală? Internet Archive a fost fondată în 1996 de Brewster Kahl și este o  organizație non-profit cu sediul în San Francisco și arhivează pagini web, cărți, filme și multe altele. Este unul dintre puținele grupuri care lucrează pentru a preveni „uitarea digitală”.

Potrivit BBC, Internet Archive a început poate cel mai ambițios proiect de arhivare digitală din toate timpurile, adunând 866 miliarde de pagini web, 44 milioane de cărți, 10,6 milioane de videoclipuri de filme și programe de televiziune și multe altele.

Wayback Machine este un instrument care colectează și stochează instantanee ale site-urilor web pentru posteritate. Dar, Internet Archive se confruntă cu amenințări financiare, provocări tehnice, atacuri cibernetice și litigii din partea firmelor care nu sunt de acord cu ideea de copii gratuite ale proprietății lor intelectuale.

Wayback Machine scanează internetul și descarcă copii funcționale ale site-urilor web pe măsură ce acestea se schimbă în timp și le fac disponibile publicului în mod gratuit.

Ar putea fi la fel de efemer ca și conținutul pe care încearcă să îl protejeze

Proiectul de salvare a internetului ar putea fi la fel de efemer ca și conținutul pe care încearcă să-l protejeze, mai ales că Internet Archive a început să piardă procese în instanță.

Un profesor de la Universitatea din Virginia, istoric al tehnologiei, a subliniat importanța finanțării și sprijinirii acestor eforturi de arhivare: „Dacă nu plătim acești oameni și nu ne asigurăm că aceste arhive sunt finanțate, ele nu vor exista în viitor, și întregul scop al colectării lor va dispărea”.

Dacă activitatea Internet Archive s-ar opri și vidul nu ar fi umplut imediat, mare parte din ceea ce este disponibil acum pe web-ul public ar fi în pericol. Nu există o implicare instituțională de a păstra internetul, astfel că arhivarea acestuia este lăsată în seama voluntarilor și a câtorva grupuri de organizații care funcționează independent.

Unii oameni de  știință susțin că trebuie să existe un fel de prioritate în ceea ce se salvează din urmele digitale ale generației noastre. „Dacă trebuie să păstrezi totul, devine foarte scump. Adesea, conținutul mai vechi sau mai puțin captivant este pierdut pe drum”, a explicat un cercetător de la Digital Preservation Coalition.

Cert este că dacă aceste arhive digitale nu vor fi finanțate, ele nu vor mai exista, astfel că scopul colectării și păstrării istoriei digitale va fi fost în zadar. Scopul unei arhive este să fie păstrată pe termen nelimitat.

 

Editor : Marina Constantinoiu

Urmărește știrile Digi24.ro și pe Google News

Partenerii noștri
Playtech
Se schimbă harta Europei cu o nouă țară. Va fi cea mai mică din lume, la doar o oră de zbor de România
Digi FM
Andreea Bănică, dezamăgită după vacanța în Grecia: „Nu mai este ce a fost odată!” Ce a nemulțumit-o pe artistă
Pro FM
Cum comentează Lady Gaga zvonurile conform cărora ar fi de fapt bărbat: „M-am obișnuit să se spună minciuni...
Film Now
Halle Berry, dezvăluiri despre fiica ei adolescentă: „A murit și o parte din mine atunci!” Cu ce problemă s-a...
Adevarul
Turistă din Cehia, despre România: ”Din cauza creșterii standardului de viață, dispare o parte din...
Newsweek
F-16, Mirage 2000, Gripen, Eurofighter, donate Ucrainei. Cu ce rachete vor lovi Rusia
Digi FM
Cum a rămas un bătrân fără pensia pe o lună, 5 000 de lei, bani pe care tocmai îi scosese de la bancomat...
Digi World
Cât de nocive sunt pentru sănătate uscătoarele de rufe pe care le avem acasă. Avertismentul lansat de oamenii...
Digi Animal World
Autoritățile au crezut că au găsit un vultur rănit, dar când l-au analizat, au izbucnit în râs. Ce avea, de...
Film Now
De 15 ani, Liam Neeson se plimbă cu aceeași femeie în parc. Acum, actorul și-a făcut curaj și i-a transmis un...
UTV
Brad Pitt si iubita sa, Ines de Ramon, stralucesc la premiera filmului „Wolfs” in Hollywood, alaturi de...