Ar kada nors susimąstėte, kodėl eroje, kai kasdien sugeneruojame kvintilijonus baitų, DI kūrėjai skundžiasi sausra? Šis klausimas atrodo prieštaraujantis intuicijai. 2026 m. pradžioje „CommonCrawl“ archyvas išsipūtė iki daugiau nei 300 milijardų tinklalapių. Gyvename skaitmeniniame tvane, kur kiekviena rezervacija vakarienei, vizitas pas gydytoją ar jutiklio rodmuo papildo pasaulinį informacijos rezervuarą. Tačiau pramonė atsimuša į sieną.
Tai yra DI duomenų paradoksas. Nepaisant precedento neturinčio turinio kiekio internete, aukštos kokybės, įvairių ir teisiškai leistinų naudoti duomenų pasiūla mąžta. 2024 m. IBM nustatė, kad duomenų trūkumas yra pagrindinė kliūtis kūrėjams, o iki 2025 m. EBPO (OECD) įspėjo apie artėjančią duomenų krizę. Iš esmės turime daug vandens, bet labai mažai jo yra tinkamo gerti. „Laukinių Vakarų“ era, kai duomenys iš tinklalapių buvo renkami (angl. scraping) neselektyviai, pasiekia savo natūralią ribą, o tai verčia pereiti prie tvaresnio ir etiškesnio dalijimosi duomenimis.
Pastarąjį dešimtmetį duomenų rinkimas iš tinklalapių (scraping) buvo numatytasis DI „mokinio“ ugdymo mechanizmas. Surinkę milijardus vaizdų ir straipsnių iš atvirojo žiniatinklio, kūrėjai sukūrė pamatinius modelius, kuriais naudojamės šiandien. Vis dėlto šis metodas tampa vis labiau nepastovus. Teisinė ir etinė infrastruktūra, palaikanti tokį duomenų rinkimą, pradeda trūkinėti. Kūrėjai reikalauja kompensacijų, platformos griežtina savo API prieigas, kad užkirstų kelią neteisėtam duomenų pasisavinimui, o „viešųjų“ duomenų kokybę skiedžia DI sugeneruoto turinio potvynis.
Kai lankausi startuoliuose besiformuojančiuose technologijų centruose, dažnai galvoju apie savo gimtojo miesto infrastruktūros iššūkius. Augdamas nesukau galvos dėl naujausio socialinio tinklo; mums rūpėjo, ar atlaikys vandentiekio vamzdžiai ir ar elektros tinklas bus pakankamai atsparus žiemai. Čia matau paralelę. Pirmąją DI kartą sukūrėme ant netvirtų „pasiskolintų“ duomenų pamatų. Dabar, kai DI tampa šiuolaikinės visuomenės komunalinių paslaugų tinklu, mums reikia tvirtesnio plano, kaip tie duomenys gaunami ir prižiūrimi.
Keista, bet duomenų krizės sprendimas nebūtinai yra generuoti daugiau duomenų, o atverti tai, kas jau egzistuoja. Naujoji su GPAI susijusi ataskaita „Nuo duomenų rinkimo iki etiško dalijimosi duomenimis“ (angl. From scraping to ethical data sharing), parengta pagal VIADUCT iniciatyvą, pabrėžia kritinį kelį į priekį. Remiantis 2025 m. vykusiais plačiais seminarais, ataskaitoje teigiama, kad kitas DI našumo šuolis įvyks naudojant privačius, aukštos kokybės duomenų rinkinius, kurie šiuo metu yra užrakinti organizacijų viduje.
Praktikoje tai reiškia atsisakymą mentaliteto „pirmiausia imk, vėliau klausk“. Vietoj to matome įvairiapusių susitarimų dėl dalijimosi duomenimis augimą. Šios sistemos, pagrįstos EBPO rekomendacijomis dėl prieigos prie duomenų gerinimo ir dalijimosi jais (EASD), siekia suderinti DI kūrėjų poreikius su duomenų valdytojų teisėmis. Kitaip tariant, mes pereiname nuo gavybos modelio prie rūpestingos valdysenos modelio.
Kodėl šis pokytis vyksta būtent dabar? Susidėjo keli veiksniai, dėl kurių senieji būdai tapo neaktualūs:
| Duomenų gavimo metodas | Patikimumas | Etinis statusas | Mastelio keitimas 2026 m. |
|---|---|---|---|
| Duomenų rinkimas (Scraping) | Žemas (triukšmas / DI šiukšlės) | Nesaugus | Mažėjantis |
| Sintetiniai duomenys | Vidutinis (šališkumo rizika) | Aukštas | Aukštas |
| Etiškas dalijimasis | Aukštas (patvirtinta / nišinė) | Aukštas | Augantis |
Mano aistra ekologijai dažnai formuoja mano požiūrį į technologijas. Kai praktikuoju skaitmeninį detoksą arba renkuosi ekoturizmą, prisimenu, kad kiekviena ekosistema turi savo talpą. Duomenų ekosistema niekuo nesiskiria. Negalime tiesiog neribotą laiką imti vertės nepapildydami šaltinio ar negerbdami aplinkos, iš kurios ji kyla.
Savo gimtajame mieste išmokome, kad bendras resursas – pavyzdžiui, vietinis šulinys – išlieka tik tada, jei visi sutaria dėl naudojimo taisyklių. DI duomenys yra mūsų naujas bendras šulinys. Jei ir toliau vertinsime internetą kaip išteklių, kurį galima kasti be pasekmių, rizikuojame užnuodyti šulinį nekokybišku, šališku ar ribotu turiniu. Todėl perėjimas prie etiško dalijimosi nėra tik moralinis pasirinkimas; tai funkcinė būtinybė, kad našus DI išgyventų.
Taigi, kaip atrodo tvari duomenų ateitis? Tai apima sklandžių ir saugių kelių kūrimą, kad duomenys tekėtų iš organizacijų kūrėjams nepažeidžiant privatumo. Tam reikia inovatyvių techninių sprendimų, tokių kaip federacinis mokymasis (angl. federated learning) ir diferencialinis privatumas, kurie veikia kaip jautrios informacijos saugumo imuninė sistema.
Dėl šių pokyčių matome startuolius, besiorientuojančius į „duomenų kooperatyvus“, kur indėlininkams sąžiningai atlyginama ir jie gali nuspręsti, kaip naudojama jų informacija. Tai ryškus nukrypimas nuo praeities neskaidrių „juodosios dėžės“ modelių. Tai daro technologijas prieinamesnes paprastiems žmonėms, užtikrinant, kad DI nauda nebūtų skirta tik Silicio slėnio elitui, bet būtų paskirstyta po visą mūsų pasaulinės visuomenės gyvą organizmą.
Jei esate kūrėjas ar verslo lyderis, išgyvenantis šį perėjimą, apsvarstykite šiuos žingsnius, kad užtikrintumėte savo duomenų strategijos atsparumą:
Perėjimas nuo duomenų rinkimo prie etiško dalijimosi yra kelionė iš laukinių vakarų į civilizuotą visuomenę. Tai sudėtinga evoliucija, kuri žada padaryti DI labiau deterministinį, patikimą ir orientuotą į žmogų.



Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.
/ Sukurti nemokamą paskyrą