Kas olete kunagi mõelnud, miks teie lemmik AI-vestlusrobot hakkab "mõistust kaotama" – või vähemalt kiirust vähendama – mida kauem teie vestlus kestab? See on pettumus, mida olen kogenud omal nahal, istudes päikesepaistelises Bali ühistööruumis ja püüdes kokku võtta nädala jagu intervjuude transkriptsioone projekti jaoks, mis käsitleb digitaalse nomadismi mõju kohalikule majandusele. Vestlusajaloo kasvades pikenes reageerimisaeg ja minu sülearvuti ventilaatorid hakkasid mürisema nagu õhkutõusmiseks valmistuv reaktiivmootor. See pole lihtsalt väike ebamugavus; see on sümptom "mäluseinast", mis ähvardab praegu kogu tehisintellekti ökosüsteemi skaleeritavust.
Google'i teadlased on ehk just leidnud sepavasara, mida on vaja selle seina lõhkumiseks. Kolme kompressioonialgoritmi – TurboQuant, PolarQuant ja Quantized Johnson-Lindenstrauss (QJL) – tutvustamisega väidab Google, et on saavutanud paradigma muutva läbimurde: võime vähendada suurte keelemudelite (LLM) mälujälge kuni kuus korda ilma mõõdetava täpsuse kaotuseta. Kui need väited peavad vastu ka tegelikus kasutuses, ootab meid ees tulevik, kus keerukas tehisintellekt ei ela ainult massiivsetes andmekeskustes, vaid õitseb teie taskus olevas nutitelefonis.
Mõistmaks, miks see oluline on, peame vaatama kapoti alla, kuidas LLM-id asju tegelikult "mäletavad". Kui suhtlete mudeliga, kasutab see midagi, mida nimetatakse võti-väärtus (KV) vahemäluks. Mõelge sellest vahemälust kui mudeli lühiajalisest töömälust. Iga teie vestluse sõna salvestatakse siia, et tehisintellekt saaks säilitada konteksti.
Praktikas on need andmed nagu vesi, mis täidab reservuaari; mida pikem on vestlus, seda kõrgemale veetase tõuseb. Lõpuks voolab reservuaar üle või peab süsteem kulutama mahu haldamiseks nii palju energiat, et jõudlus aeglustub teosammuni. See on peamine põhjus, miks pika kontekstiga aknad – tehisintellekti võime mäletada tervet raamatut või massiivset koodibaasi – on nii kallid ja riistvaramahukad. Seetõttu on isegi kõige innovaatilisemad AI-ettevõtted olnud sunnitud leidma ebakindlat tasakaalu konteksti pikkuse ja riistvarakulude vahel.
Google'i lahendus ei püüa andmeid lihtsalt tihedamalt kokku pakkida; see muudab põhjalikult andmete kuju. Silmapaistvaim tegija siin on PolarQuant. Selle lihtsaks selgitamiseks kujutage ette, et püüate pakkida kohvrit täis nurgelisi, ebakorrapärase kujuga kive. Tulemuseks on palju raisatud ruumi. PolarQuant sisuliselt "pööritab" neid andmevektoreid – sõnade ja mõistete matemaatilisi esitusi –, et lihtsustada nende geomeetriat.
Rakendades juhuslikku pöörlemist, muudab algoritm andmed ühtlasemaks ja "sfäärilisemaks". Kummalisel kombel muudab see standardse ja kvaliteetse kvantija rakendamise palju lihtsamaks. Sisuliselt muudab see need nurgelised kivid siledateks marmorkuulideks, mis veerevad kenasti oma kohale, täites kohvri iga nurga. See uuenduslik lähenemine võimaldab äärmuslikku pakkimist – kuni vaid 2 või 3 bitini väärtuse kohta –, säilitades samal ajal algse 16-bitise mudeli nüansirikka jõudluse.
Samal ajal pakub Quantized Johnson-Lindenstrauss (QJL) meetod tugeva matemaatilise raamistiku kõrgmõõtmeliste andmete projitseerimiseks madalamõõtmelisse ruumi. See on veidi nagu linnaplaneerimine; püüate kaardistada keerulist kolmemõõtmelist metropoli kahemõõtmelisele projektile, kaotamata elutähtsa infrastruktuuri asukohta.
Tehnoloogiaajakirjanduses näeme sõna "läbimurre" sageli loopitavat nagu konfette. Kuid väide "null täpsuse kadu" on tõeliselt märkimisväärne. Ajalooliselt on pakkimine olnud alati kompromiss. Kui soovisite väiksemat mudelit, pidite leppima "lollima" mudeliga, mis hallutsineeris sagedamini või kaotas haarde keerulise loogika üle.
Inseneriteadust ja sotsioloogiat õppides paelus mind see, kuidas tehnilised piirangud dikteerivad sageli kultuurilisi piire. Väikelinnas, kus ma üles kasvasin, oli internet habras sild välismaailma. Kui AI nõuab massiivset ja kallist riistvara, jääb see eliidi tööriistaks. Kuid kui TurboQuant suudab pakkuda 6-kordset mälukasutuse vähenemist deterministliku täpsusega, demokratiseerib see tehnoloogia. See tähendab, et odav nutitelefon suudab käitada mudelit, mis varem nõudis serveriraami.
Mida see lõppkasutaja jaoks tähendab? Kellegi jaoks nagu mina, kes tugineb reisimise ajal produktiivsuse säilitamiseks tööriistade komplektile, on tagajärjed mitmetahulised.
| Funktsioon | Standardne LLM | TurboQuant-tõhustatud LLM |
|---|---|---|
| Mälukasutus | Kõrge (1x) | Ultra-madal (~0.16x) |
| Kontekstiaken | Piiratud VRAM-iga | Oluliselt laiendatud |
| Seadmesisene kiirus | Sageli loid | Jõuline ja sujuv |
| Täpsus | Baastase | Identne baastasemega |
| Energiakulu | Kõrge | Madal (pikem aku vastupidavus) |
Tänu sellele tõhususele võime oodata uue põlvkonna "asünkroonseid" AI-assistente, mis elavad täielikult seadmes. Kujutage ette tõlkerakendust, mis ei vaja WiFi-signaali keeruliste juriidiliste dokumentide mõistmiseks, või tervisetehnoloogia seadet, mis töötleb teie biomeetrilisi andmeid lokaalselt, et pakkuda reaalajas stressijuhtimise nõuandeid.
Inimesena, kes tasakaalustab armastust tipptasemel vidinate vastu pühendunud meditatsioonipraktika ja kirega toidutehnoloogia vastu, pean ma tõhusama tehisintellekti väljavaadet sügavalt kütkestavaks. See tähendab, et meie seadmed saavad olla abivalmimad, ilma et nad oleksid invasiivsemad või energianäljasemad. Meil on suure mudeli keerukad teadmised ilma pideva pilvesünkroonimise hõõrdumiseta.
Sellegipoolest peaksime jääma mõtlikuks. Kuigi Google'i uued algoritmid on tohutu hüpe edasi, on "mälupuudus" liikuv märklaud. Leidmises viise mudelite väiksemaks muutmiseks, leiame paratamatult viise nende keerukamaks muutmiseks. See on innovatsioonitsükkel, mida olen täheldanud lugematutel tehnikanäitustel, alates CES-ist kuni Web Summitini.
Arendajate ja organisatsioonide jaoks on praktiline järeldus selge: "toore jõuga" AI skaleerimise ajastu on lõppemas. Tulevik kuulub neile, kes suudavad optimeerida. Kui ehitate AI-integreeritud tooteid, on nüüd aeg uurida vektorkvantimist ja seda, kuidas neid uusi kompressioonistandardeid oma projekti integreerida.
Teisisõnu, eesmärk ei ole lihtsalt ehitada suuremat aju; eesmärk on ehitada tõhusam aju. Liikudes 2027. aasta poole, on võime käitada suure jõudlusega tehisintellekti tagasihoidlikul riistvaral eraldusjoon vananenud tehnoloogia ja järgmise murrangulise platvormi vahel.
Mida teha järgmiseks:



Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.
/ Tasuta konto loomin