Vai esat kādreiz domājuši, kāpēc jūsu iecienītākais AI tērzēšanas robots sāk "zaudēt prātu" — vai vismaz ātrumu — jo ilgāk ilgst jūsu saruna? Tā ir vilšanās, ko esmu izjutis personīgi, sēžot saules apspīdētā kopstrādes telpā Bali un mēģinot apkopot nedēļas interviju transkriptus projektam par to, kā digitālais nomadisms pārveido vietējo ekonomiku. Pieaugot tērzēšanas vēsturei, atbildes laiks palielinājās, un mana klēpjdatora ventilatori sāka skanēt kā reaktīvais dzinējs, kas gatavojas pacelšanās brīdim. Tas nav tikai neliels kairinājums; tas ir "atmiņas sienas" simptoms, kas pašlaik apdraud visas AI ekosistēmas mērogojamību.
Google pētnieki, iespējams, tikko ir atraduši veseri, kas nepieciešams šīs sienas nojaukšanai. Ieviešot trīs saspiešanas algoritmus — TurboQuant, PolarQuant un Quantized Johnson-Lindenstrauss (QJL) —, Google piesaka paradigmas maiņas izrāvienu: spēju samazināt lielo valodu modeļu (LLM) atmiņas nospiedumu līdz pat sešām reizēm bez izmērāmiem precizitātes zudumiem. Ja šie apgalvojumi izturēs reālās pasaules ieviešanas pārbaudījumus, mēs raugāmies uz nākotni, kurā izsmalcināts AI ne tikai mīt masīvos datu centros, bet arī plaukst viedtālrunī jūsu kabatā.
Lai saprastu, kāpēc tas ir svarīgi, mums jāieskatās "zem pārsega", kā LLM patiesībā lietas "atceras". Mijiedarbojoties ar modeli, tas izmanto tā saukto atslēgu-vērtību (KV) kešatmiņu. Domājiet par šo kešatmiņu kā par modeļa īstermiņa darba atmiņu. Katrs jūsu sarunas vārds tiek glabāts šeit, lai AI varētu saglabāt kontekstu.
Praksē šie dati ir kā ūdens, kas pilda rezervuāru; jo garāka saruna, jo augstāks kļūst ūdens līmenis. Galu galā rezervuārs pārplūst vai arī sistēmai jātērē tik daudz enerģijas apjoma pārvaldībai, ka veiktspēja palēninās līdz minimumam. Tas ir galvenais iemesls, kāpēc garā konteksta logi — AI spēja atcerēties veselu grāmatu vai masīvu koda bāzi — ir tik dārgi un aparatūras ietilpīgi. Šī iemesla dēļ pat inovatīvākie AI uzņēmumi ir bijuši spiesti veikt nedrošu balansēšanu starp konteksta garumu un aparatūras izmaksām.
Google risinājums nemēģina tikai ciešāk sapakot datus; tas fundamentāli maina datu formu. Izcilākais spēlētājs šeit ir PolarQuant. Lai to vienkārši paskaidrotu, iedomājieties, ka mēģināt sapakot koferi pilnu ar robainiem, neregulāras formas akmeņiem. Jūs iegūsiet daudz nelietderīgi izmantotas vietas. PolarQuant būtībā "pagriež" šos datu vektorus — vārdu un jēdzienu matemātiskos attēlojumus —, lai vienkāršotu to ģeometriju.
Piemērojot nejaušu rotāciju, algoritms padara datus viendabīgākus un "sfēriskākus". Savādi, bet tas ievērojami atvieglo standarta, augstas kvalitātes kvantētāja piemērošanu. Būtībā tas pārvērš šos robainos akmeņus gludās marmora lodītēs, kas glīti ieripo savās vietās, aizpildot katru kofera stūri. Šī novatoriskā pieeja ļauj veikt ekstrēmu saspiešanu — līdz pat 2 vai 3 bitiem uz vērtību —, vienlaikus saglabājot oriģinālā 16 bitu modeļa niansēto veiktspēju.
Tikmēr Quantized Johnson-Lindenstrauss (QJL) metode nodrošina stabilu matemātisko ietvaru augstas dimensijas datu projicēšanai zemākas dimensijas telpā. Tas ir nedaudz līdzīgi pilsētplānošanai; jūs mēģināt kartēt sarežģītu, trīsdimensiju metropoli divdimensiju rasējumā, nezaudējot svarīgākās infrastruktūras atrašanās vietu.
Tehnoloģiju žurnālistikas pasaulē mēs bieži redzam vārdu "izrāviens" mētājamies kā konfeti. Tomēr apgalvojums par "nulles precizitātes zudumu" ir patiesi ievērojams. Vēsturiski saspiešana vienmēr ir bijusi kompromiss. Ja vēlējāties mazāku modeli, jums bija jāsamierinās ar "muļķīgāku" modeli, kas biežāk halucinēja vai zaudēja izpratni par sarežģītu loģiku.
Studējot inženierzinātnes un socioloģiju, mani fascinēja tas, kā tehniskie ierobežojumi bieži nosaka kultūras robežas. Mazajā pilsētiņā, kurā es uzaugu, internets bija trausls tilts uz ārpasauli. Ja AI nepieciešama masīva, dārga aparatūra, tas paliek elites instruments. Bet, ja TurboQuant var nodrošināt 6x atmiņas izmantošanas samazinājumu ar deterministisku precizitāti, tas demokratizē tehnoloģiju. Tas nozīmē, ka budžeta viedtālrunis var darbināt modeli, kuram iepriekš bija nepieciešams serveru statīvs.
Kā tas izskatās galalietotājam? Kādam, piemēram, man, kurš paļaujas uz rīku komplektu, lai saglabātu produktivitāti ceļojot, sekas ir daudzpusīgas.
| Funkcija | Standarta LLM | TurboQuant uzlabots LLM |
|---|---|---|
| Atmiņas izmantošana | Augsta (1x) | Ultra-zema (~0.16x) |
| Konteksta logs | Ierobežots ar VRAM | Ievērojami paplašināts |
| Ātrums ierīcē | Bieži gans | Veiktspējīgs un elegants |
| Precizitāte | Bāzes līnija | Identiska bāzes līnijai |
| Enerģijas izmaksas | Augstas | Zemas (pagarināts akumulatora darbības laiks) |
Pateicoties šai efektivitātei, mēs varam sagaidīt jaunas paaudzes "asinhronos" AI asistentus, kas pilnībā dzīvo ierīcē. Iedomājieties tulkošanas lietotni, kurai nav nepieciešams Wi-Fi signāls, lai saprastu sarežģītus juridiskos dokumentus, vai veselības tehnoloģiju valkājamierīci, kas lokāli apstrādā jūsu biometriskos datus, lai sniegtu reāllaika stresa pārvaldības padomus.
Kā cilvēks, kurš apvieno mīlestību pret modernākajiem gadžetiem ar regulāru meditācijas praksi un aizraušanos ar pārtikas tehnoloģijām, es uzskatu, ka efektīvāka AI perspektīva ir ļoti pievilcīga. Tas nozīmē, ka mūsu ierīces var būt noderīgākas, nekļūstot invazīvākas vai enerģiju patērējošākas. Mēs varam iegūt liela modeļa izsmalcināto ieskatu bez apgrūtinošās pastāvīgās mākoņa sinhronizācijas pieredzes.
Tomēr mums jāsaglabā pārdomātība. Lai gan Google jaunie algoritmi ir milzīgs lēciens uz priekšu, "atmiņas trūkums" ir mainīgs mērķis. Atrodot veidus, kā padarīt modeļus mazākus, mēs neizbēgami atrodam veidus, kā padarīt tos sarežģītākus. Tas ir inovāciju cikls, ko esmu novērojis neskaitāmās tehnoloģiju izstādēs, no CES līdz Web Summit.
Izstrādātājiem un organizācijām praktiskais secinājums ir skaidrs: AI mērogošanas "brutālā spēka" ēra beidzas. Nākotne pieder tiem, kas spēj optimizēt. Ja veidojat produktus ar integrētu AI, tagad ir laiks izpētīt vektoru kvantēšanu un to, kā šos jaunos saspiešanas standartus var integrēt jūsu plānā.
Citiem vārdiem sakot, mērķis nav tikai izveidot lielākas smadzenes; mērķis ir izveidot efektīvākas smadzenes. Tuvojoties 2027. gadam, spēja darbināt augstas veiktspējas AI uz pieticīgas aparatūras būs robežšķirtne starp novecojušām tehnoloģijām un nākamo disruptīvo platformu.
Ko darīt tālāk:



Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.
/ Izveidot bezmaksas kontu