Dirbtinis intelektas

Kodėl greičiausias pasaulyje DI veikia naudojant standartinius lustus, o ne specializuotą techninę įrangą

„Xiaomi“ „MiMo-V2.5-Pro-UltraSpeed“ pasiekia 1 000 žetonų per sekundę greitį naudojant standartinius GPU, 15 kartų aplenkdamas „ChatGPT“ ir „Claude“ dėl programinės įrangos inovacijų.
Kodėl greičiausias pasaulyje DI veikia naudojant standartinius lustus, o ne specializuotą techninę įrangą

Technologijų pramonė pastaruosius dvejus metus buvo įsitikinusi, kad vienintelis būdas pagreitinti DI – iš naujo išrasti kompiuterio lustą. Startuoliai, tokie kaip „Groq“ ir „Cerebras“, pritraukė milijardus dolerių, kad sukurtų masyvią, specializuotą techninę įrangą, skirtą duomenų perdavimo kliūtims, lėtinančioms tokius modelius kaip „ChatGPT“, pašalinti. Naratyvas buvo paprastas: standartiniai „Nvidia“ grafikos lustai puikiai tiko DI mokymui, tačiau jie buvo per lėti realaus laiko reakcijoms, kurių reikia realiame pasaulyje. Šis įsitikinimas pavertė specializuoto silicio paieškas skaitmenine aukso karštine.

„Xiaomi“ ką tik įrodė, kad ši teorija klaidinga. Pirmadienio rytą Kinijos elektronikos milžinė išleido naują savo pavyzdinio modelio „MiMo-V2.5-Pro-UltraSpeed“ aptarnavimo režimą. Jis padarė daugiau nei tik pagerino greičio rekordą. Jis sugriovė lubas tam, ką manėme esant įmanoma naudojant standartinę, masinės gamybos techninę įrangą. Sistema pasiekė 1 200 žetonų (angl. tokens) per sekundę greitį naudojant trilijono parametrų modelį. Palyginimui, žetonas yra maždaug trys ketvirtadaliai žodžio. Tai reiškia, kad modelis sugeneruoja apie 900 žodžių kiekvieną sekundę.

Žvelgiant į bendrą vaizdą, tai yra 15 kartų greičiau nei „GPT“ ir „Claude“ versijos, kurias šiandien naudoja dauguma žmonių. „Xiaomi“ tai pasiekė naudodama standartinį 8-GPU mazgą – tokią pačią techninę įrangą, kurią galite išsinuomoti iš bet kurio didelio debesijos paslaugų teikėjo. Šis pasiekimas rodo, kad kitos kartos DI greičio paslaptis nėra geresnė lustų gamykla. Tai išmanesnis būdas naudoti jau turimus lustus.

Greičio atotrūkis skaičiais

Norėdami suprasti, kodėl tai svarbu, turime pažiūrėti, kaip žmonės patiria DI greitį. Kai užduodate klausimą „ChatGPT“ ar „Claude“, tekstas paprastai pasirodo greitai rašančio mašininkio tempu. Tai yra maždaug 60–80 žetonų per sekundę. Nors skaitančiam žmogui tai atrodo greita, sudėtingoms pramoninėms užduotims tai yra per lėta. Didelės spartos DI yra nematomas stuburas tokiems dalykams kaip vertimas realiuoju laiku, momentinis sukčiavimo aptikimas bankininkystėje ir autonominiai agentai, kurie per minutę turi priimti tūkstančius sprendimų.

Istoriškai didžiausi greičiai buvo pasiekiami naudojant specializuotą techninę įrangą. „Cerebras“ pateko į antraštes pasiekusi beveik 1 000 žetonų per sekundę greitį su „Meta“ modeliu, tačiau tam prireikė vakarienės lėkštės dydžio lusto. „Xiaomi“ pasiekė tą pačią ribą – ir ją peržengė – su modeliu, kuris yra daugiau nei dvigubai didesnis.

Modelis Žetonai per sekundę Techninės įrangos tipas
MiMo-V2.5-Pro-UltraSpeed 1 200 Standartiniai GPU
Gemini Flash 192 Google TPU (Specializuota)
Claude Haiku 98 Standartiniai debesijos GPU
Claude Opus 4.6 71 Standartiniai debesijos GPU
GPT-5.5 68 Standartiniai debesijos GPU

Kaip programinės įrangos gudrybės įveikia techninės įrangos apribojimus

„Po kapotu“ „Xiaomi“ naudojo techniką, vadinamą FP4 kvantavimu (angl. quantization), modelio ekspertų sluoksniuose. Paprastai tariant, įsivaizduokite, kad trilijono parametrų modelis yra milžiniška biblioteka. Paprastai kompiuteris turi perskaityti kiekvieną žodį kiekvienoje knygoje, kad pateiktų jums atsakymą. Tai reikalauja daug atminties ir laiko. Kvantavimas yra būdas sumažinti tas knygas, kad jos užimtų mažiau vietos.

Daugelis įmonių bando sumažinti visą biblioteką, tačiau dėl to DI dažnai tampa mažiau protingas ir labiau linkęs į klaidas. „Xiaomi“ veikė chirurgiškai. Jie išlaikė pagrindinę modelio logiką aukšta raiška, tačiau suspaudė specializuotus ekspertų sluoksnius – specifinius bibliotekos skyrius – iki 4 bitų tikslumo. Tai perpus sumažino duomenų kiekį, kurį lustas turėjo perkelti. Rezultatas – modelis, kuris išlaiko savo aukštą IQ, bet per kompiuterio atmintį juda dvigubai greičiau.

Taip pat yra antra gudrybė, vadinama „DFlash“ spekuliatyviuoju dekodavimu. Įprastame DI pokalbyje modelis yra tarsi rašytojas, kuris prieš rašydamas turi apgalvoti kiekvieną raidę. Spekuliatyvusis dekodavimas įveda nenuilstantį praktikantą, kuris bando atspėti kelis kitus žodžius. Jei praktikantas teisus, modelis priima visą teksto bloką iš karto. Jei praktikantas klysta, modelis jį pataiso. „Xiaomi“ „DFlash“ yra toks efektyvus, kad vienu metu pasiūlo aštuonis žetonus ir paprastai šeši iš jų būna teisingi. Tai leidžia modeliui šokti į priekį blokais, užuot šliaužus po vieną žodį.

„TileRT“ variklis ir tuščių tarpų pabaiga

Programinės įrangos efektyvumas dažnai susijęs su tuščių erdvių pašalinimu procese. „Xiaomi“ sujungė savo modelį su nauju inferencijos varikliu, vadinamu „TileRT“. Daugumoje DI sistemų atsiranda nedidelė delsą kiekvieną kartą, kai programinė įranga nurodo techninei įrangai atlikti naują skaičiavimą. Šie tarpai matuojami mikrosekundėmis, tačiau jie susideda, kai atliekate milijardus skaičiavimų.

„TileRT“ visą skaičiavimo procesą visą laiką laiko GPU atmintyje. Tai pašalina tradicinio DI apdorojimo „sustojimo ir paleidimo“ pobūdį. Šis supaprastintas požiūris užtikrina, kad grafikos lustai niekada nestovi be darbo, laukdami kitos instrukcijos. Šis suspaustų duomenų, sėkmingo spėjimo ir vientiso konvejerio derinys leidžia standartiniam serveriui veikti kaip daugybę milijonų dolerių kainuojančiam specializuotam superkompiuteriui.

Ką tai reiškia jūsų kasdienėms technologijoms

Vidutiniam vartotojui šie greičio rekordai gali atrodyti kaip abstrakti korporacijų konkurencija. Tačiau poveikis vartotojų technologijoms yra apčiuopiamas. Kai DI yra toks greitas, jis iš pokalbių roboto, su kuriuo kalbatės, virsta įrankiu, kuris dirba už jus fone.

Apsvarstykite vertimo realiuoju laiku programėlę. Dabartinis greitis dažnai turi pastebimą delsą, dėl kurios natūralus pokalbis tampa sudėtingas. Esant 1 000 žetonų per sekundę greičiui, DI galėtų išklausyti visą sakinį, išversti jį į tris skirtingas kalbas ir patikrinti visų trijų gramatiką per trumpesnį laiką, nei užtrunka mirksnis. Tai pašalina nepatogias pauzes tarptautiniuose verslo susitikimuose ar kelionėse.

Rinkos požiūriu tai yra perversmą sukeliantis žingsnis DI kainodarai. „Xiaomi“ nustatė šio „UltraSpeed“ bandomojo laikotarpio kainą, kuri yra tris kartus didesnė už jų standartinį tarifą, tačiau jie suteikia dešimt kartų didesnį našumą. Kūrėjams, kuriantiems naujas programėles, tai reiškia, kad už kiekvieną debesijos kompiuterijai išleistą dolerį jie gali atlikti daug daugiau darbo. Mažesnės išlaidos kūrėjams paprastai lemia pigesnes arba galingesnes programėles galutiniam vartotojui.

Praktinė įžvalga

„Xiaomi“ sėkmė rodo, kad pastarųjų kelerių metų techninės įrangos trūkumas galėjo būti užmaskuota programinės įrangos problema. Įmonėms supratus, kad jos gali pasiekti didžiulį našumo padidėjimą geriau programuodamos, spaudimas pirkti brangiausius, specializuotus lustus gali pradėti blėsti. Judame link laikotarpio, kai matematikos efektyvumas bus toks pat svarbus kaip ir silicio galia.

Turėtumėte tikėtis, kad iki šių metų pabaigos jūsų įrenginius pasieks realaus laiko DI funkcijų banga. Tai nebus tik greitesni pokalbių robotai. Išvysite funkcijas, kurioms reikia, kad DI vienu metu apgalvotų dešimtis galimybių, pavyzdžiui, pažangius kodavimo asistentus, kurie per kelias sekundes parašo ištisas programas, arba žaidimų personažus, kurie veda nesurežisuotus, momentinius pokalbius. Kliūtis nebėra tai, kaip greitai kompiuteris gali mąstyti. Tai yra tai, kaip greitai mes galime jam duoti ką nors naudingo nuveikti.

Šaltiniai:
Xiaomi MiMo Developer Documentation (2026 m. balandis)
Artificial Analysis LLM Leaderboard (2026 m. birželis)
TileRT Technical Whitepaper (2026 m. gegužė)
Cerebras and Groq Performance Benchmarks (2025 m.)

bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą