Pramonės naujienos

Latam-GPT: Lotynų Amerikos atvirojo kodo dirbtinio intelekto modelis kovoja su šališkumu ir skatina skaitmeninį suverenumą

Latam-GPT yra pirmasis Lotynų Amerikos atvirojo kodo DKM, sukurtas Čilėje kovai su visuotiniu DI šališkumu. Apmokytas ispanų ir portugalų kalbomis regioniniais duomenimis.
Latam-GPT: Lotynų Amerikos atvirojo kodo dirbtinio intelekto modelis kovoja su šališkumu ir skatina skaitmeninį suverenumą

Nauja dirbtinio intelekto era Lotynų Amerikoje prasidėjo. Vykdant didžiulį bendradarbiavimo darbą, koordinuojamą Čilėje, Latam-GPT yra pirmasis regiono atvirojo kodo didelis kalbos modelis (DKM), apmokytas specialiai suprasti įvairias žemyno kultūrines, kalbines ir socialines realijas. Projektas yra strateginis atsakas į visuotinį šališkumą ir nepakankamą Lotynų Amerikos duomenų atstovavimą pasaulinėse DI sistemose, siekiant sustiprinti regiono technologinį suverenumą ir paskatinti vietos inovacijas.

Kas yra „Latam-GPT“? „Suverenaus“ DKM apibrėžimas

„Latam-GPT“ yra dirbtinio intelekto bazinis modelis, sukurtas Čilės nacionalinio dirbtinio intelekto centro (CENIA), bendradarbiaujant su daugiau nei 15 Lotynų Amerikos šalių institucijomis. Skirtingai nei patentuoti modeliai, pavyzdžiui, didžiųjų Silicio slėnio įmonių, „Latam-GPT“ yra atvirojo kodo sistema, sukurta veikti kaip bendra viešoji infrastruktūra regionui, o ne kaip uždaras vartotojų pokalbių robotas.

Iniciatyva oficialiai pradėta 2026 m. vasario pradžioje, žymint reikšmingą etapą Lotynų Amerikos skaitmeninėje istorijoje. Pagrindinis jos tikslas yra ne tiesiogiai konkuruoti su pasauliniais gigantais, o sukurti DI, kuris būtų tikslus ir kultūriškai aktualus jo vartotojams. Tai suteikia atvirą technologinį pagrindą, kurį vietos programuotojai ir institucijos gali pritaikyti kurdami regionui skirtas programas, užtikrinant, kad technologija atspindėtų vietos poreikius.

Duomenų dilema: kodėl regionui reikia savo modelio

Pagrindiniai pasauliniai DKM daugiausia apmokomi naudojant didelius kiekius turinio anglų kalba, o tai reiškia, kad Lotynų Amerikos duomenys, įskaitant ispanų ir portugalų kalbos turinį, sudaro menką dalį jų apmokymo korpuso (atitinkamai apie 4 % ir 2 %).

Šis atstovavimo trūkumas tiesiogiai virsta šališkumo ir haliucinacijų problemomis, kai klausiama apie vietos temas. Pavyzdžiui, pasaulinis modelis gali sunkiai tiksliai interpretuoti regioninį žargoną, teisinius dokumentus, vietos istoriją ar kultūrines nuorodas, kartais pateikdamas stereotipinius ar neteisingus vaizdus.

Čilės prezidentas Gabrielis Boricas galingai apibrėžė strateginę projekto svarbą, pareikšdamas: „Jei nebūsime prie kūrimo stalo, atsidursime valgiaraštyje.“ Todėl „Latam-GPT“ yra tapatybės ir skaitmeninės išsaugojimo veiksmas, užtikrinantis, kad regionas iš pasyvaus DI vartotojo taptų aktyviu kūrėju.

Visuotinio regiono bendradarbiavimas ir techninės specifikacijos

„Latam-GPT“ kūrimas liudija visuotinį regiono bendradarbiavimą, suburiant daugiau nei 30 institucijų ir daugiau nei 60 DI ekspertų iš šalių, įskaitant Argentiną, Braziliją, Kolumbiją, Meksiką, Peru ir Urugvajų. Šis įvairus tinklas teikia etiškai surinktus duomenis iš regiono universitetų, vyriausybinių subjektų, bibliotekų ir pilietinės visuomenės organizacijų.

Pagrindiniai techniniai akcentai:

  • Apmokymo duomenys: Modelis iš pradžių buvo apmokytas naudojant daugiau nei aštuonis terabaitus regioninių ir sintetinių duomenų, prilygstančių milijonams knygų.
  • Architektūra: Tikimasi, kad būsimos modelio versijos bus pagrįstos atvirojo kodo architektūra, pavyzdžiui, „Llama 3.1“.
  • Kalbos palaikymas: Pradinis dėmesys skiriamas jo veikimo tobulinimui ispanų ir portugalų kalbomis.
  • Vietinės kalbos: Svarbus ilgalaikis tikslas yra Lotynų Amerikos vietinių kalbų, tokių kaip Rapa Nui, Mapudungun, Quechua, Guaraní ir Aymara, įtraukimas, siekiant kovoti su jų trūkumu internete ir padėti išsaugoti kultūrą.
  • Infrastruktūra: Projektas buvo sukurtas su neįtikėtinai kukliu maždaug 550 000 JAV dolerių biudžetu, finansuojamu CENIA ir Lotynų Amerikos plėtros banko (CAF). Nors pradinė versija naudojo AWS debesį, būsimam apmokymui bus naudojamas superkompiuteris, esantis Tarapacá universitete šiaurinėje Čilėje, taip sustiprinant vietos infrastruktūrą.

Poveikis visuomenei ir praktinės taikymo sritys

„Latam-GPT“ sukurtas taip, kad būtų nemokamai prieinamas įmonėms, vyriausybėms ir viešosioms institucijoms, atspindint jo, kaip viešosios paslaugos, vaidmenį. Jo atvirojo kodo pobūdis reiškia, kad modelio vertė slypi ne jo neapdorotuose parametruose (kurie yra mažesni nei pažangiausių modelių), o jo kontekste specifinėje duomenų kokybėje ir naudingume kaip pritaikomam baziniam sluoksniui regioninėms programoms.

Tikimasi, kad modelio poveikis bus jaučiamas nedelsiant viešajame sektoriuje ir pritaikytoje verslo aplinkoje:

  • Viešosios paslaugos: Galimi pritaikymai apima logistikos valdymo gerinimą ligoninėse, vyriausybės viešosios politikos analizės supaprastinimą ir judresnių viešojo sektoriaus procesų palaikymą.
  • Švietimas: Jis gali būti pritaikytas kurti kultūriškai specifines mokymo programas ir priemones, skirtas sumažinti mokyklos nebaigusių asmenų skaičių, panaudojant mokymo duomenis, kurie apima vietos vadovėlius ir istorinius įrašus.
  • Verslas: Vietos įmonės, tokios kaip oro linijos ir mažmenininkai, yra suinteresuotos naudoti „Latam-GPT“ klientų aptarnavimo programoms, kurios gali tiksliai atpažinti regioninį žargoną, idiomas ir kalbos tempus, suteikdamos daug niuansuotesnę ir veiksmingesnę vartotojo patirtį nei apibendrinti modeliai.

Praktinės įžvalgos Lotynų Amerikos (Latam) kūrėjams

Lotynų Amerikos kūrėjams, tyrėjams ir technologijų įmonėms „Latam-GPT“ yra reikšmingas žingsnis savarankiškumo link. Jo išleidimas reiškia, kad jiems nebereikia kurti pasirinktinių DI įrankių, pradedant nuo užsienio, kultūriškai svetimo bazinio modelio.

Ką daryti toliau:

  1. Išnagrinėkite API / kodų bazę: Kūrėjai turėtų stebėti CENIA ir oficialius „Latam-GPT“ kanalus, ieškodami atvirojo kodo ir API prieigos prie bazinio modelio (tikimasi, kad pirmoji pagrindinė versija bus išleista 2026 m. rugsėjo mėn.).
  2. Galimybės tobulinti (Fine-Tuning): Atsižvelgiant į tai, kad jo pagrindas pritaikytas regioninei ispanų ir portugalų kalbai, „Latam-GPT“ siūlo puikią išeities poziciją tobulinimo užduotims, susijusioms su konkrečių šalių įstatymais, vietine literatūra ar unikaliu verslo žargonu.
  3. Prisidėkite duomenimis: Akademinės ir pilietinės visuomenės institucijos skatinamos toliau teikti aukštos kokybės, etiškai surinktus duomenis būsimoms modelio iteracijoms, ypač nepakankamai atstovaujamose istorinėse ar kalbinėse srityse, įskaitant vietines kalbas.

Iš esmės „Latam-GPT“ yra technologinė nepriklausomybės deklaracija. Teikdamas pirmenybę kultūriniam tikslumui, kalbinei įvairovei ir atviram bendradarbiavimui, projektas užtikrina, kad Lotynų Amerikos DI ateitis būtų kuriama jos pačios sąlygomis ir atspindėtų jos turtingą tikrovę.

bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą