Technologijos ir Inovacijos

„Google“ „TurboQuant“: DI atminties krizės sprendimas neaukojant intelekto

„Google“ „TurboQuant“, „PolarQuant“ ir QJL algoritmai 6 kartus sumažina LLM atminties naudojimą be tikslumo praradimo, sukeldami revoliuciją įrenginiuose veikiančiame DI.
Stanisław Kowalski
Stanisław Kowalski
2026 m. kovo 27 d.
„Google“ „TurboQuant“: DI atminties krizės sprendimas neaukojant intelekto

Ar kada nors susimąstėte, kodėl jūsų mėgstamiausias DI pokalbių robotas pradeda „prarasti protą“ – arba bent jau greitį – kuo ilgiau trunka jūsų pokalbis? Tai nusivylimas, kurį pajutau tiesiogiai, sėdėdamas saulėtoje bendradarbystės erdvėje Balyje ir bandydamas apibendrinti savaitės trukmės interviu transkripcijas projektui apie tai, kaip skaitmeninis klajokliškumas keičia vietos ekonomiką. Augant pokalbių istorijai, atsako laikas ilgėjo, o mano nešiojamojo kompiuterio ventiliatoriai pradėjo skambėti kaip kylantis reaktyvinis lėktuvas. Tai nėra tik nedidelis nepatogumas; tai „atminties sienos“, kuri šiuo metu kelia grėsmę visos DI ekosistemos masteliui, simptomas.

„Google“ tyrėjai galbūt ką tik rado kūjį, reikalingą tai sienai sugriauti. Pristatydama trijų suspaudimo algoritmų rinkinį – „TurboQuant“, „PolarQuant“ ir „Quantized Johnson-Lindenstrauss“ (QJL) – „Google“ skelbia apie paradigmą keičiantį proveržį: galimybę iki šešių kartų sumažinti didžiųjų kalbos modelių (LLM) užimamą atminties kiekį be jokio išmatuojamo tikslumo praradimo. Jei šie teiginiai pasitvirtins realiomis sąlygomis, mūsų laukia ateitis, kurioje sudėtingas DI ne tik gyvuos milžiniškuose duomenų centruose, bet ir klestės jūsų kišenėje esančiame išmaniajame telefone.

Sunki pokalbio našta

Norėdami suprasti, kodėl tai svarbu, turime pažvelgti „po gaubtu“, kaip LLM iš tikrųjų „atsimena“ dalykus. Kai sąveikaujate su modeliu, jis naudoja tai, kas vadinama „Key-Value“ (KV) talpykla. Įsivaizduokite šią talpyklą kaip modelio trumpalaikę darbinę atmintį. Kiekvienas jūsų pokalbio žodis saugomas čia, kad DI galėtų išlaikyti kontekstą.

Praktikoje šie duomenys yra tarsi vanduo, pildantis rezervuarą; kuo ilgesnis pokalbis, tuo aukščiau kyla vandens lygis. Galiausiai rezervuaras persipildo arba sistema turi sunaudoti tiek daug energijos tūriui valdyti, kad našumas sulėtėja iki vėžlio greičio. Tai pagrindinė priežastis, kodėl ilgo konteksto langai – DI gebėjimas atsiminti visą knygą ar milžinišką kodo bazę – yra tokie brangūs ir reikalaujantys daug techninės įrangos išteklių. Dėl šios priežasties net inovatyviausios DI įmonės buvo priverstos ieškoti trapios pusiausvyros tarp konteksto ilgio ir techninės įrangos sąnaudų.

„TurboQuant“ ir posūkio menas

„Google“ sprendimas ne tik bando glaudžiau supakuoti duomenis; jis iš esmės keičia duomenų formą. Ryškiausias pasiekimas čia yra „PolarQuant“. Paprastai tariant, įsivaizduokite, kad bandote supakuoti lagaminą, pilną aštrių, netaisyklingos formos akmenų. Liks daug tuščios vietos. „PolarQuant“ iš esmės „pasuka“ šiuos duomenų vektorius – matematines žodžių ir sąvokų reprezentacijas – kad supaprastintų jų geometriją.

Taikydamas atsitiktinį pasukimą, algoritmas padaro duomenis vienodesnius ir „sferiškesnius“. Įdomu tai, kad dėl to tampa daug lengviau pritaikyti standartinį, aukštos kokybės kvantavimo įrankį. Iš esmės tai paverčia tuos aštrius akmenis lygiais rutuliukais, kurie tvarkingai surieda į vietą, užpildydami kiekvieną lagamino kampą. Šis novatoriškas požiūris leidžia pasiekti ekstremalų suspaudimą – iki 2 ar 3 bitų vienai reikšmei – išlaikant niuansuotą originalaus 16 bitų modelio našumą.

Tuo tarpu „Quantized Johnson-Lindenstrauss“ (QJL) metodas suteikia tvirtą matematinę sistemą aukšto matmenų skaičiaus duomenų projektavimui į žemesnio matmenų skaičiaus erdvę. Tai šiek tiek panašu į miestų planavimą; bandote nubraižyti sudėtingą, trimatį metropolį dvimačiame brėžinyje, neprarandant gyvybiškai svarbios infrastruktūros vietos.

Kodėl „nulinis tikslumo praradimas“ yra Šventasis Gralis

Technologijų žurnalistikos pasaulyje žodį „proveržis“ dažnai matome mėtomą tarsi konfeti. Tačiau teiginys apie „nulinį tikslumo praradimą“ yra tikrai nepaprastas. Istoriškai suspaudimas visada buvo kompromisas. Jei norėjote mažesnio modelio, turėjote susitaikyti su „kvailesniu“ modeliu, kuris dažniau haliucinuoja arba praranda gebėjimą suprasti sudėtingą logiką.

Studijuodamas inžineriją ir sociologiją, susižavėjau tuo, kaip techniniai apribojimai dažnai diktuoja kultūrines ribas. Mažame miestelyje, kuriame užaugau, internetas buvo trapus tiltas į išorinį pasaulį. Jei DI reikalauja milžiniškos, brangios techninės įrangos, jis lieka įrankiu elitui. Bet jei „TurboQuant“ gali užtikrinti 6 kartus mažesnį atminties naudojimą su deterministiniu tikslumu, tai demokratizuoja technologiją. Tai reiškia, kad biudžetinis išmanusis telefonas gali paleisti modelį, kuriam anksčiau reikėjo serverių spintos.

Nuo duomenų centrų iki skaitmeninių klajoklių

Kaip tai atrodo galutiniam vartotojui? Žmogui, tokiam kaip aš, kuris keliaudamas pasitiki įrankių rinkiniu produktyvumui palaikyti, pasekmės yra daugialypės.

Funkcija Standartinis LLM „TurboQuant“ patobulintas LLM
Atminties naudojimas Didelis (1x) Itin mažas (~0,16x)
Konteksto langas Ribojamas VRAM Žymiai išplėstas
Greitis įrenginyje Dažnai lėtas Našus ir sklandus
Tikslumas Bazinis Identiškas baziniam
Energijos sąnaudos Didelės Mažos (ilgesnis baterijos veikimas)

Dėl šio efektyvumo galime tikėtis naujos kartos „asinchroninių“ DI asistentų, kurie visiškai gyvuos įrenginyje. Įsivaizduokite vertimo programėlę, kuriai nereikia „Wi-Fi“ signalo, kad suprastų sudėtingus teisinius dokumentus, arba sveikatos technologijų dėvimą įrenginį, kuris lokaliai apdoroja jūsų biometrinius duomenis, kad realiuoju laiku pateiktų streso valdymo patarimus.

Kaip žmogui, kuris derina meilę moderniausiems prietaisams su reguliaria meditacijos praktika ir aistra maisto technologijoms, efektyvesnio DI perspektyva man atrodo labai patraukli. Tai reiškia, kad mūsų įrenginiai gali būti naudingesni, netapdami labiau invaziniais ar eikvojančiais energiją. Galime turėti sudėtingas didelio modelio įžvalgas be nuolatinio debesijos sinchronizavimo sukeliamų trikdžių.

Kelias į priekį

Nepaisant to, turėtume išlikti įžvalgūs. Nors naujieji „Google“ algoritmai yra didžiulis šuolis į priekį, „atminties trūkumas“ yra kintantis tikslas. Rasdami būdų, kaip padaryti modelius mažesnius, neišvengiamai randame būdų, kaip juos padaryti sudėtingesnius. Tai inovacijų ciklas, kurį stebėjau daugybėje technologijų parodų, nuo CES iki „Web Summit“.

Kūrėjams ir organizacijoms praktinė išvada aiški: „brutalios jėgos“ DI mastelio didinimo era baigiasi. Ateitis priklauso tiems, kurie moka optimizuoti. Jei kuriate DI integruotus produktus, dabar pats laikas pasidomėti vektorių kvantavimu ir tuo, kaip šie nauji suspaudimo standartai gali būti integruoti į jūsų projektus.

Kitaip tariant, tikslas nėra tiesiog sukurti didesnes smegenis; tikslas yra sukurti efektyvesnes smegenis. Artėjant 2027-iesiems, gebėjimas paleisti aukšto našumo DI kuklioje techninėje įrangoje bus skiriamoji riba tarp pasenusių technologijų ir kitos perversmą sukeliančios platformos.

Ką daryti toliau:

  • Auditokite savo išvedimo (inference) išlaidas: Jei naudojate LLM debesijoje, apskaičiuokite, kiek 6 kartus sumažintas atminties poreikis galėtų sutaupyti jūsų lėšų.
  • Ištirkite įrenginio galimybių planus: Pažiūrėkite, kaip „TurboQuant“ galėtų leisti perkelti funkcijas iš serverio į kliento įrenginį, užtikrinant geresnį privatumą ir greitį.
  • Išlaikykite pusiausvyrą: Mūsų įrankiams tampant galingesniems ir „visada įjungtiems“, nepamirškite nustatyti ribų. Panaudokite sutaupytą baterijos energiją pranešimams išjungti ir išeikite pabėgioti.

Šaltiniai

  • „Google Research“: „TurboQuant: High-Ratio Compression for LLM KV Caching“
  • Techninis straipsnis: „PolarQuant: Transforming Data for Optimal Quantization“
  • „ArXiv“: „Quantized Johnson-Lindenstrauss Transforms in Machine Learning“
  • „Google AI Blog“: „Advancements in Vector Quantization for Large Scale Models“
bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą