Tööstusuudised

Latam-GPT: Ladina-Ameerika avatud lähtekoodiga tehisintellekti mudel võitleb eelarvamustega ja edendab digitaalset suveräänsust

Latam-GPT on Ladina-Ameerika esimene avatud lähtekoodiga suur keelemudel (LLM), mis töötati välja Tšiilis ülemaailmse tehisintellekti eelarvamuse vastu võitlemiseks. Koolitatud hispaania ja portugali keeles piirkondlike andmete põhjal.
Latam-GPT: Ladina-Ameerika avatud lähtekoodiga tehisintellekti mudel võitleb eelarvamustega ja edendab digitaalset suveräänsust

Ladina-Ameerika tehisintellekti uus ajastu on alanud. Tšiilis baseeruva massilise koostööprojekti eestvedamisel on Latam-GPT piirkonna esimene avatud lähtekoodiga suur keelemudel (LLM), mis on koolitatud spetsiaalselt mõistma kontinendi mitmekesiseid kultuurilisi, keelelisi ja sotsiaalseid reaalsusi. Projekt on strateegiline vastus ülemaailmsetes tehisintellekti süsteemides esinevale laialdasele eelarvamusele ja Ladina-Ameerika andmete alaesindatusele, mille eesmärk on tugevdada piirkondlikku tehnoloogilist suveräänsust ja toetada kohalikku innovatsiooni.

Mis on Latam-GPT? „Suveräänse“ keelemudeli määratlemine

Latam-GPT on tehisintellekti baasmudel, mille on välja töötanud Tšiili riiklik tehisintellekti keskus (CENIA) koostöös enam kui 15 Ladina-Ameerika riigi institutsioonidega. Erinevalt patenteeritud mudelitest, nagu need, mida pakuvad suured Silicon Valley ettevõtted, on Latam-GPT avatud lähtekoodiga süsteem, mis on loodud toimima piirkonna ühise avaliku infrastruktuurina, mitte suletud tarbijarobotina.

Algatus käivitati ametlikult 2026. aasta veebruari alguses, tähistades olulist verstaposti Ladina-Ameerika digitaalses ajaloos. Selle peamine eesmärk ei ole konkureerida otse globaalsete hiiglastega, vaid luua tehisintellekt, mis on oma kasutajate jaoks täpne ja kultuuriliselt asjakohane. See pakub avatud tehnoloogilist alust, mida kohalikud programmeerijad ja institutsioonid saavad kohandada piirkonnaspetsiifiliste rakenduste arendamiseks, tagades, et tehnoloogia peegeldab kohalikke vajadusi.

Andmete dilemma: miks piirkond vajab oma mudelit

Peamised globaalsed keelemudelid on valdavalt koolitatud tohutul hulgal ingliskeelse sisu põhjal, mis tähendab, et Ladina-Ameerika andmed – sealhulgas hispaania- ja portugalikeelne sisu – moodustavad nende koolituskorpusest kaduvväikese osa (vastavalt hinnanguliselt umbes 4% ja 2%).

See esindatuse puudumine väljendub otseselt eelarvamuste ja hallutsinatsioonide probleemides kohalike teemade kohta päringute tegemisel. Näiteks võib globaalsel mudelil olla raskusi piirkondliku slängi, juriidiliste dokumentide, kohaliku ajaloo või kultuuriliste viidete täpse tõlgendamisega, kasutades mõnikord stereotüüpseid või ebatäpseid kujutisi.

Tšiili president Gabriel Boric sõnastas projekti strateegilise tähtsuse tabavalt: „Kui me ei ole arenduslauas, oleme me menüüs.“ Latam-GPT on seetõttu identiteedi ja digitaalse säilitamise akt, tagades, et piirkond liigub passiivsest tehisintellekti tarbijast aktiivseks loojaks.

Panregionaalne koostöö ja tehnilised spetsifikatsioonid

Latam-GPT arendamine on tunnistus panregionaalsest koostööst, mis koondab üle 30 institutsiooni ja enam kui 60 tehisintellekti eksperti sellistest riikidest nagu Argentina, Brasiilia, Colombia, Mehhiko, Peruu ja Uruguay. See mitmekesine võrgustik panustab eetilistel alustel kogutud andmetega piirkondlikest ülikoolidest, valitsusasutustest, raamatukogudest ja kodanikuühiskonna organisatsioonidest.

Peamised tehnilised esiletõstmised:

  • Koolitusandmed: Mudel koolitati esialgu enam kui kaheksa terabaidi piirkondlike ja sünteetiliste andmete põhjal, mis vastab miljonitele raamatutele.
  • Arhitektuur: Mudeli tulevased versioonid peaksid tuginema avatud lähtekoodiga arhitektuurile, näiteks Llama 3.1.
  • Keeletugi: Esialgne fookus on selle jõudluse täiustamisel hispaania ja portugali keeles.
  • Põlisrahvaste keeled: Kriitilise tähtsusega pikaajaline eesmärk on Ladina-Ameerika põlisrahvaste keelte (nagu Rapa Nui, Mapudungun, Quechua, Guaraní ja Aymara) kaasamine, et võidelda nende vähese veebipõhise esindatuse vastu ja aidata kaasa kultuuri säilitamisele.
  • Infrastruktuur: Projekt töötati välja märkimisväärselt tagasihoidliku eelarvega, umbes 550 000 dollarit, mida rahastasid CENIA ja Ladina-Ameerika Arengupank (CAF). Kui esialgne versioon kasutas AWS-i pilve, siis edaspidine koolitus toimub Tšiili põhjaosas asuvas Tarapacá Ülikooli (University of Tarapacá) superarvutis, tugevdades kohalikku infrastruktuuri.

Avalik mõju ja praktilised rakendused

Latam-GPT on loodud olema ettevõtetele, valitsustele ja avalik-õiguslikele asutustele tasuta kättesaadav, peegeldades selle rolli avaliku teenusena. Selle avatud lähtekoodiga olemus tähendab, et mudeli väärtus ei seisne selle toorparameetrites (mis on väiksemad kui tipptasemel mudelitel), vaid selle kontekstispetsiifilises andmekvaliteedis ja selle kasulikkuses kohandatava aluskihtina piirkondlike rakenduste jaoks.

Mudeli mõju on eeldatavasti kõige vahetumalt tuntav avalikus sektoris ja kohandatud äriringkondades:

  • Avalikud teenused: Potentsiaalsed rakendused hõlmavad logistilise juhtimise parandamist haiglates, valitsuse avaliku poliitika analüüsi lihtsustamist ja väledamate avaliku sektori protsesside toetamist.
  • Haridus: Seda saab kohandada kultuurispetsiifiliste õppekavade ja vahendite väljatöötamiseks, mille eesmärk on vähendada koolist väljalangemist, kasutades koolitusandmeid, mis sisaldavad kohalikke õpikuid ja ajaloolisi dokumente.
  • Ettevõtlus: Kohalikud ettevõtted, nagu lennufirmad ja jaemüüjad, on huvitatud Latam-GPT kasutamisest klienditeenindusprogrammide jaoks, mis suudavad täpselt ära tunda piirkondlikku slängi, idioome ja kõnekiirust, pakkudes palju nüansseeritumat ja tõhusamat kasutuskogemust kui üldistatud mudelid.

Praktilised juhised Ladina-Ameerika arendajatele

Ladina-Ameerika arendajate, teadlaste ja tehnoloogiaettevõtete jaoks kujutab Latam-GPT endast olulist sammu iseseisvuse suunas. Selle käivitamine tähendab, et nad ei pea enam ehitama kohandatud tehisintellekti tööriistu, alustades võõrast, kultuuriliselt võõrandunud baasmudelist.

Mida edasi teha:

  1. Uurige API-t/Koodibaasi: Arendajad peaksid jälgima CENIA ja ametlikke Latam-GPT kanaleid avatud lähtekoodi ja API juurdepääsu saamiseks baasmudelile (esimene suurem versioon peaks ilmuma 2026. aasta septembris).
  2. Peenhäälestamise võimalused: Arvestades, et selle alus on häälestatud piirkondlikule hispaania ja portugali keelele, pakub Latam-GPT suurepärast lähtepunkti peenhäälestuse ülesannete jaoks, mis on seotud konkreetsete riikide seaduste, kohaliku kirjanduse või ainulaadse äržargooniga.
  3. Andmete panustamine: Akadeemilisi ja kodanikuühiskonna institutsioone julgustatakse panustama kvaliteetseid, eetilistest allikatest pärinevaid andmeid mudeli tulevastesse versioonidesse, eriti alaesindatud ajaloolistes või keelelistes valdkondades, sealhulgas põlisrahvaste keeltes.

Sisuliselt on Latam-GPT tehnoloogiline iseseisvusdeklaratsioon. Seades esikohale kultuurilise täpsuse, keelelise mitmekesisuse ja avatud koostöö, tagab projekt selle, et Ladina-Ameerika tehisintellekti tulevik ehitatakse üles oma tingimustel ja peegeldab selle enda rikkalikku tegelikkust.

bg
bg
bg

Kohtumiseni teisel poolel.

Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.

/ Tasuta konto loomin