Dirbtinis intelektas

DI duomenų paradoksas: kodėl 2026-aisiais daugiau ne visada yra geriau

Išnagrinėkite perėjimą nuo duomenų rinkimo iš žiniatinklio prie etiško dalijimosi duomenimis DI kūrime, remiantis 2025 m. GPAI ataskaita ir artėjančiu pasauliniu duomenų trūkumu.
Ahmad al-Hasan
Ahmad al-Hasan
2026 m. balandžio 1 d.
DI duomenų paradoksas: kodėl 2026-aisiais daugiau ne visada yra geriau

Troškulys potvynio viduryje

Ar kada nors susimąstėte, kodėl eroje, kai kasdien sugeneruojame kvintilijonus baitų, DI kūrėjai skundžiasi sausra? Šis klausimas atrodo prieštaraujantis intuicijai. 2026 m. pradžioje „CommonCrawl“ archyvas išsipūtė iki daugiau nei 300 milijardų tinklalapių. Gyvename skaitmeniniame tvane, kur kiekviena rezervacija vakarienei, vizitas pas gydytoją ar jutiklio rodmuo papildo pasaulinį informacijos rezervuarą. Tačiau pramonė atsimuša į sieną.

Tai yra DI duomenų paradoksas. Nepaisant precedento neturinčio turinio kiekio internete, aukštos kokybės, įvairių ir teisiškai leistinų naudoti duomenų pasiūla mąžta. 2024 m. IBM nustatė, kad duomenų trūkumas yra pagrindinė kliūtis kūrėjams, o iki 2025 m. EBPO (OECD) įspėjo apie artėjančią duomenų krizę. Iš esmės turime daug vandens, bet labai mažai jo yra tinkamo gerti. „Laukinių Vakarų“ era, kai duomenys iš tinklalapių buvo renkami (angl. scraping) neselektyviai, pasiekia savo natūralią ribą, o tai verčia pereiti prie tvaresnio ir etiškesnio dalijimosi duomenimis.

Nesaugus duomenų rinkimo iš žiniatinklio palikimas

Pastarąjį dešimtmetį duomenų rinkimas iš tinklalapių (scraping) buvo numatytasis DI „mokinio“ ugdymo mechanizmas. Surinkę milijardus vaizdų ir straipsnių iš atvirojo žiniatinklio, kūrėjai sukūrė pamatinius modelius, kuriais naudojamės šiandien. Vis dėlto šis metodas tampa vis labiau nepastovus. Teisinė ir etinė infrastruktūra, palaikanti tokį duomenų rinkimą, pradeda trūkinėti. Kūrėjai reikalauja kompensacijų, platformos griežtina savo API prieigas, kad užkirstų kelią neteisėtam duomenų pasisavinimui, o „viešųjų“ duomenų kokybę skiedžia DI sugeneruoto turinio potvynis.

Kai lankausi startuoliuose besiformuojančiuose technologijų centruose, dažnai galvoju apie savo gimtojo miesto infrastruktūros iššūkius. Augdamas nesukau galvos dėl naujausio socialinio tinklo; mums rūpėjo, ar atlaikys vandentiekio vamzdžiai ir ar elektros tinklas bus pakankamai atsparus žiemai. Čia matau paralelę. Pirmąją DI kartą sukūrėme ant netvirtų „pasiskolintų“ duomenų pamatų. Dabar, kai DI tampa šiuolaikinės visuomenės komunalinių paslaugų tinklu, mums reikia tvirtesnio plano, kaip tie duomenys gaunami ir prižiūrimi.

Link etiško dalijimosi duomenimis

Keista, bet duomenų krizės sprendimas nebūtinai yra generuoti daugiau duomenų, o atverti tai, kas jau egzistuoja. Naujoji su GPAI susijusi ataskaita „Nuo duomenų rinkimo iki etiško dalijimosi duomenimis“ (angl. From scraping to ethical data sharing), parengta pagal VIADUCT iniciatyvą, pabrėžia kritinį kelį į priekį. Remiantis 2025 m. vykusiais plačiais seminarais, ataskaitoje teigiama, kad kitas DI našumo šuolis įvyks naudojant privačius, aukštos kokybės duomenų rinkinius, kurie šiuo metu yra užrakinti organizacijų viduje.

Praktikoje tai reiškia atsisakymą mentaliteto „pirmiausia imk, vėliau klausk“. Vietoj to matome įvairiapusių susitarimų dėl dalijimosi duomenimis augimą. Šios sistemos, pagrįstos EBPO rekomendacijomis dėl prieigos prie duomenų gerinimo ir dalijimosi jais (EASD), siekia suderinti DI kūrėjų poreikius su duomenų valdytojų teisėmis. Kitaip tariant, mes pereiname nuo gavybos modelio prie rūpestingos valdysenos modelio.

Duomenų trūkumo anatomija

Kodėl šis pokytis vyksta būtent dabar? Susidėjo keli veiksniai, dėl kurių senieji būdai tapo neaktualūs:

  • Modelio kolapsas: DI sugeneruotam turiniui užpildžius internetą, duomenų rinkimas iš „atvirojo žiniatinklio“ vis dažniau reiškia modelių mokymą naudojant kitų modelių rezultatus, o tai lemia kokybės ir įvairovės mažėjimą.
  • Teisinė trintis: Garsūs naujienų organizacijų ir menininkų ieškiniai pavertė surinktų duomenų naudojimą teisine našta, o ne turtu.
  • Privatūs duomenų skliautai: Kai kurie vertingiausi duomenys, skirti realaus pasaulio problemoms spręsti – pavyzdžiui, agrotechnikos optimizavimui ar telemedicinos proveržiams – saugomi privačiose duomenų bazėse, kurių neįmanoma pasiekti viešais įrankiais.
Duomenų gavimo metodas Patikimumas Etinis statusas Mastelio keitimas 2026 m.
Duomenų rinkimas (Scraping) Žemas (triukšmas / DI šiukšlės) Nesaugus Mažėjantis
Sintetiniai duomenys Vidutinis (šališkumo rizika) Aukštas Aukštas
Etiškas dalijimasis Aukštas (patvirtinta / nišinė) Aukštas Augantis

Asmeninė tvarumo pamoka

Mano aistra ekologijai dažnai formuoja mano požiūrį į technologijas. Kai praktikuoju skaitmeninį detoksą arba renkuosi ekoturizmą, prisimenu, kad kiekviena ekosistema turi savo talpą. Duomenų ekosistema niekuo nesiskiria. Negalime tiesiog neribotą laiką imti vertės nepapildydami šaltinio ar negerbdami aplinkos, iš kurios ji kyla.

Savo gimtajame mieste išmokome, kad bendras resursas – pavyzdžiui, vietinis šulinys – išlieka tik tada, jei visi sutaria dėl naudojimo taisyklių. DI duomenys yra mūsų naujas bendras šulinys. Jei ir toliau vertinsime internetą kaip išteklių, kurį galima kasti be pasekmių, rizikuojame užnuodyti šulinį nekokybišku, šališku ar ribotu turiniu. Todėl perėjimas prie etiško dalijimosi nėra tik moralinis pasirinkimas; tai funkcinė būtinybė, kad našus DI išgyventų.

Rytojaus infrastruktūros kūrimas

Taigi, kaip atrodo tvari duomenų ateitis? Tai apima sklandžių ir saugių kelių kūrimą, kad duomenys tekėtų iš organizacijų kūrėjams nepažeidžiant privatumo. Tam reikia inovatyvių techninių sprendimų, tokių kaip federacinis mokymasis (angl. federated learning) ir diferencialinis privatumas, kurie veikia kaip jautrios informacijos saugumo imuninė sistema.

Dėl šių pokyčių matome startuolius, besiorientuojančius į „duomenų kooperatyvus“, kur indėlininkams sąžiningai atlyginama ir jie gali nuspręsti, kaip naudojama jų informacija. Tai ryškus nukrypimas nuo praeities neskaidrių „juodosios dėžės“ modelių. Tai daro technologijas prieinamesnes paprastiems žmonėms, užtikrinant, kad DI nauda nebūtų skirta tik Silicio slėnio elitui, bet būtų paskirstyta po visą mūsų pasaulinės visuomenės gyvą organizmą.

Praktiniai žingsniai naujai erai

Jei esate kūrėjas ar verslo lyderis, išgyvenantis šį perėjimą, apsvarstykite šiuos žingsnius, kad užtikrintumėte savo duomenų strategijos atsparumą:

  1. Audituokite savo šaltinius: Atsisakykite pasenusių duomenų rinkinių, kurių kilmė neaiški. Užtikrinkite, kad jūsų mokymo duomenys būtų gaunami per skaidrius susitarimus.
  2. Teikite pirmenybę kokybei, o ne kiekybei: 2026-aisiais nedidelis, sudėtingas žmogaus patvirtintos informacijos duomenų rinkinys yra vertingesnis už trilijoną eilučių surinkto skaitmeninio triukšmo.
  3. Investuokite į privatumą saugančias technologijas: Išbandykite įrankius, leidžiančius dalytis duomenimis jų neatskleidžiant. Tai raktas į „užrakintų“ duomenų bazių, minimų VIADUCT ataskaitoje, atvėrimą.
  4. Tapkite duomenų valdytojais: Vertinkite savo vartotojų duomenis kaip atsakomybę, o ne tik kaip prekę. Tai sukuria pasitikėjimą, būtiną ilgalaikiam tvarumui.

Perėjimas nuo duomenų rinkimo prie etiško dalijimosi yra kelionė iš laukinių vakarų į civilizuotą visuomenę. Tai sudėtinga evoliucija, kuri žada padaryti DI labiau deterministinį, patikimą ir orientuotą į žmogų.

  • Pasaulinė dirbtinio intelekto partnerystė (GPAI), VIADUCT iniciatyvos ataskaita: „Nuo duomenų rinkimo iki etiško dalijimosi duomenimis“ (2025).
  • EBPO (OECD), „Rekomendacijos dėl prieigos prie duomenų gerinimo ir dalijimosi jais (EASD)“ (2019/2025 atnaujinimas).
  • IBM verslo vertės institutas, „DI duomenų iššūkių ataskaita“ (2024).
  • „CommonCrawl“ fondas, „2026 m. saugyklos statistika ir augimo tendencijos“.
bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą