Tehnoloģijas un Inovācijas

Google TurboQuant: AI atmiņas krīzes risināšana, nezaudējot intelektu

Google TurboQuant, PolarQuant un QJL algoritmi samazina LLM atmiņas patēriņu par 6 reizēm bez precizitātes zuduma, revolucionizējot ierīcēs esošo AI un konteksta logus.
Stanisław Kowalski
Stanisław Kowalski
2026. gada 27. marts
Google TurboQuant: AI atmiņas krīzes risināšana, nezaudējot intelektu

Vai esat kādreiz domājuši, kāpēc jūsu iecienītākais AI tērzēšanas robots sāk "zaudēt prātu" — vai vismaz ātrumu — jo ilgāk ilgst jūsu saruna? Tā ir vilšanās, ko esmu izjutis personīgi, sēžot saules apspīdētā kopstrādes telpā Bali un mēģinot apkopot nedēļas interviju transkriptus projektam par to, kā digitālais nomadisms pārveido vietējo ekonomiku. Pieaugot tērzēšanas vēsturei, atbildes laiks palielinājās, un mana klēpjdatora ventilatori sāka skanēt kā reaktīvais dzinējs, kas gatavojas pacelšanās brīdim. Tas nav tikai neliels kairinājums; tas ir "atmiņas sienas" simptoms, kas pašlaik apdraud visas AI ekosistēmas mērogojamību.

Google pētnieki, iespējams, tikko ir atraduši veseri, kas nepieciešams šīs sienas nojaukšanai. Ieviešot trīs saspiešanas algoritmus — TurboQuant, PolarQuant un Quantized Johnson-Lindenstrauss (QJL) —, Google piesaka paradigmas maiņas izrāvienu: spēju samazināt lielo valodu modeļu (LLM) atmiņas nospiedumu līdz pat sešām reizēm bez izmērāmiem precizitātes zudumiem. Ja šie apgalvojumi izturēs reālās pasaules ieviešanas pārbaudījumus, mēs raugāmies uz nākotni, kurā izsmalcināts AI ne tikai mīt masīvos datu centros, bet arī plaukst viedtālrunī jūsu kabatā.

Smagā sarunu nasta

Lai saprastu, kāpēc tas ir svarīgi, mums jāieskatās "zem pārsega", kā LLM patiesībā lietas "atceras". Mijiedarbojoties ar modeli, tas izmanto tā saukto atslēgu-vērtību (KV) kešatmiņu. Domājiet par šo kešatmiņu kā par modeļa īstermiņa darba atmiņu. Katrs jūsu sarunas vārds tiek glabāts šeit, lai AI varētu saglabāt kontekstu.

Praksē šie dati ir kā ūdens, kas pilda rezervuāru; jo garāka saruna, jo augstāks kļūst ūdens līmenis. Galu galā rezervuārs pārplūst vai arī sistēmai jātērē tik daudz enerģijas apjoma pārvaldībai, ka veiktspēja palēninās līdz minimumam. Tas ir galvenais iemesls, kāpēc garā konteksta logi — AI spēja atcerēties veselu grāmatu vai masīvu koda bāzi — ir tik dārgi un aparatūras ietilpīgi. Šī iemesla dēļ pat inovatīvākie AI uzņēmumi ir bijuši spiesti veikt nedrošu balansēšanu starp konteksta garumu un aparatūras izmaksām.

TurboQuant un pagrieziena māksla

Google risinājums nemēģina tikai ciešāk sapakot datus; tas fundamentāli maina datu formu. Izcilākais spēlētājs šeit ir PolarQuant. Lai to vienkārši paskaidrotu, iedomājieties, ka mēģināt sapakot koferi pilnu ar robainiem, neregulāras formas akmeņiem. Jūs iegūsiet daudz nelietderīgi izmantotas vietas. PolarQuant būtībā "pagriež" šos datu vektorus — vārdu un jēdzienu matemātiskos attēlojumus —, lai vienkāršotu to ģeometriju.

Piemērojot nejaušu rotāciju, algoritms padara datus viendabīgākus un "sfēriskākus". Savādi, bet tas ievērojami atvieglo standarta, augstas kvalitātes kvantētāja piemērošanu. Būtībā tas pārvērš šos robainos akmeņus gludās marmora lodītēs, kas glīti ieripo savās vietās, aizpildot katru kofera stūri. Šī novatoriskā pieeja ļauj veikt ekstrēmu saspiešanu — līdz pat 2 vai 3 bitiem uz vērtību —, vienlaikus saglabājot oriģinālā 16 bitu modeļa niansēto veiktspēju.

Tikmēr Quantized Johnson-Lindenstrauss (QJL) metode nodrošina stabilu matemātisko ietvaru augstas dimensijas datu projicēšanai zemākas dimensijas telpā. Tas ir nedaudz līdzīgi pilsētplānošanai; jūs mēģināt kartēt sarežģītu, trīsdimensiju metropoli divdimensiju rasējumā, nezaudējot svarīgākās infrastruktūras atrašanās vietu.

Kāpēc "nulles precizitātes zudums" ir Svētais Grāls

Tehnoloģiju žurnālistikas pasaulē mēs bieži redzam vārdu "izrāviens" mētājamies kā konfeti. Tomēr apgalvojums par "nulles precizitātes zudumu" ir patiesi ievērojams. Vēsturiski saspiešana vienmēr ir bijusi kompromiss. Ja vēlējāties mazāku modeli, jums bija jāsamierinās ar "muļķīgāku" modeli, kas biežāk halucinēja vai zaudēja izpratni par sarežģītu loģiku.

Studējot inženierzinātnes un socioloģiju, mani fascinēja tas, kā tehniskie ierobežojumi bieži nosaka kultūras robežas. Mazajā pilsētiņā, kurā es uzaugu, internets bija trausls tilts uz ārpasauli. Ja AI nepieciešama masīva, dārga aparatūra, tas paliek elites instruments. Bet, ja TurboQuant var nodrošināt 6x atmiņas izmantošanas samazinājumu ar deterministisku precizitāti, tas demokratizē tehnoloģiju. Tas nozīmē, ka budžeta viedtālrunis var darbināt modeli, kuram iepriekš bija nepieciešams serveru statīvs.

No datu centriem līdz digitālajiem nomadiem

Kā tas izskatās galalietotājam? Kādam, piemēram, man, kurš paļaujas uz rīku komplektu, lai saglabātu produktivitāti ceļojot, sekas ir daudzpusīgas.

Funkcija Standarta LLM TurboQuant uzlabots LLM
Atmiņas izmantošana Augsta (1x) Ultra-zema (~0.16x)
Konteksta logs Ierobežots ar VRAM Ievērojami paplašināts
Ātrums ierīcē Bieži gans Veiktspējīgs un elegants
Precizitāte Bāzes līnija Identiska bāzes līnijai
Enerģijas izmaksas Augstas Zemas (pagarināts akumulatora darbības laiks)

Pateicoties šai efektivitātei, mēs varam sagaidīt jaunas paaudzes "asinhronos" AI asistentus, kas pilnībā dzīvo ierīcē. Iedomājieties tulkošanas lietotni, kurai nav nepieciešams Wi-Fi signāls, lai saprastu sarežģītus juridiskos dokumentus, vai veselības tehnoloģiju valkājamierīci, kas lokāli apstrādā jūsu biometriskos datus, lai sniegtu reāllaika stresa pārvaldības padomus.

Kā cilvēks, kurš apvieno mīlestību pret modernākajiem gadžetiem ar regulāru meditācijas praksi un aizraušanos ar pārtikas tehnoloģijām, es uzskatu, ka efektīvāka AI perspektīva ir ļoti pievilcīga. Tas nozīmē, ka mūsu ierīces var būt noderīgākas, nekļūstot invazīvākas vai enerģiju patērējošākas. Mēs varam iegūt liela modeļa izsmalcināto ieskatu bez apgrūtinošās pastāvīgās mākoņa sinhronizācijas pieredzes.

Ceļš uz priekšu

Tomēr mums jāsaglabā pārdomātība. Lai gan Google jaunie algoritmi ir milzīgs lēciens uz priekšu, "atmiņas trūkums" ir mainīgs mērķis. Atrodot veidus, kā padarīt modeļus mazākus, mēs neizbēgami atrodam veidus, kā padarīt tos sarežģītākus. Tas ir inovāciju cikls, ko esmu novērojis neskaitāmās tehnoloģiju izstādēs, no CES līdz Web Summit.

Izstrādātājiem un organizācijām praktiskais secinājums ir skaidrs: AI mērogošanas "brutālā spēka" ēra beidzas. Nākotne pieder tiem, kas spēj optimizēt. Ja veidojat produktus ar integrētu AI, tagad ir laiks izpētīt vektoru kvantēšanu un to, kā šos jaunos saspiešanas standartus var integrēt jūsu plānā.

Citiem vārdiem sakot, mērķis nav tikai izveidot lielākas smadzenes; mērķis ir izveidot efektīvākas smadzenes. Tuvojoties 2027. gadam, spēja darbināt augstas veiktspējas AI uz pieticīgas aparatūras būs robežšķirtne starp novecojušām tehnoloģijām un nākamo disruptīvo platformu.

Ko darīt tālāk:

  • Auditējiet savas secināšanas (inference) izmaksas: Ja darbināt LLM mākonī, aprēķiniet, cik daudz 6x atmiņas samazinājums varētu ietaupīt jūsu budžetā.
  • Izpētiet ierīces lokālo ceļvedi: Izpētiet, kā TurboQuant varētu ļaut pārvietot funkcijas no servera uz klienta ierīci labākai privātumam un ātrumam.
  • Saglabājiet līdzsvaru: Tā kā mūsu rīki kļūst jaudīgāki un "vienmēr ieslēgti", atcerieties noteikt robežas. Izmantojiet ietaupīto akumulatora darbības laiku, lai izslēgtu paziņojumus un dotos skrējienā.

Avoti

  • Google Research: "TurboQuant: High-Ratio Compression for LLM KV Caching"
  • Technical Paper: "PolarQuant: Transforming Data for Optimal Quantization"
  • ArXiv: "Quantized Johnson-Lindenstrauss Transforms in Machine Learning"
  • Google AI Blog: "Advancements in Vector Quantization for Large Scale Models"
bg
bg
bg

Uz tikšanos otrā pusē.

Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.

/ Izveidot bezmaksas kontu