Tehnoloogiasektor veetis viimased kaks aastat veendumuses, et ainus viis tehisintellekti kiiremaks muutmiseks on arvutikiibi uuesti leiutamine. Idufirmad nagu Groq ja Cerebras kaasasid miljardeid dollareid, et ehitada massiivset spetsialiseeritud riistvara, mis on loodud lahendama andmete kitsaskohti, mis aeglustavad mudeleid nagu ChatGPT. Narratiiv oli lihtne: Nvidia standardsed graafikakiibid sobisid tehisintellekti treenimiseks, kuid olid liiga aeglased reaalmaailmas vajalike välksirete vastuste jaoks. See uskumus muutis jahi kohandatud ränile digitaalseks kullapalavikuks.
Xiaomi tõestas just, et see teooria on vale. Esmaspäeva hommikul avaldas Hiina elektroonikahiiglane oma lipulaeva mudeli MiMo-V2.5-Pro-UltraSpeed jaoks uue serveerimisrežiimi. See tegi enamat kui lihtsalt kiirusrekordi purustamine. See purustas lae selle kohta, mida pidasime võimalikuks tavalisel, poest ostetaval riistvaral. Süsteem saavutas kiiruse 1200 märki (tokenit) sekundis triljoni parameetriga mudelil. Kontekstiks: üks märk on umbes kolmveerand sõna. See tähendab, et mudel genereerib umbes 900 sõna igas sekundis.
Suurt pilti vaadates on see 15 korda kiirem kui GPT ja Claude'i versioonid, mida enamik inimesi täna kasutab. Xiaomi saavutas selle, kasutades standardset 8-GPU sõlme — samasugust riistvara, mida saab rentida mis tahes suurelt pilveteenuse pakkujalt. See areng viitab sellele, et järgmise põlvkonna tehisintellekti kiiruse saladus ei ole parem kiibitehas. See on nutikam viis juba olemasolevate kiipide kasutamiseks.
Et mõista, miks see oluline on, peame vaatama, kuidas inimesed tehisintellekti kiirust kogevad. Kui küsite ChatGPT-lt või Claude'ilt küsimuse, ilmub tekst tavaliselt kiire masinkirjutaja tempos. See on umbes 60 kuni 80 märki sekundis. Kuigi see tundub ühte vastust lugevale inimesele kiire, on see keerukate tööstuslike ülesannete jaoks liiga aeglane. Kiire tehisintellekt on nähtamatu selgroog sellistele asjadele nagu reaalajas tõlge, kohene pettuste tuvastamine panganduses ja autonoomsed agendid, mis peavad tegema tuhandeid otsuseid minutis.
Ajalooliselt tulid suurimad kiirused kohandatud riistvarast. Cerebras jõudis pealkirjadesse, saavutades Meta mudelil peaaegu 1000 märki sekundis, kuid see nõudis õhtusöögitaldriku suurust kiipi. Xiaomi jõudis sama künniseni — ja ületas selle — mudelil, mis on rohkem kui kaks korda suurem.
| Mudel | Märki sekundis | Riistvara tüüp |
|---|---|---|
| MiMo-V2.5-Pro-UltraSpeed | 1 200 | Standardsed graafikakaardid (GPU) |
| Gemini Flash | 192 | Google TPU (Kohandatud) |
| Claude Haiku | 98 | Standardsed pilve-GPU-d |
| Claude Opus 4.6 | 71 | Standardsed pilve-GPU-d |
| GPT-5.5 | 68 | Standardsed pilve-GPU-d |
Kapoti all kasutas Xiaomi tehnikat nimega FP4 kvantimine mudeli ekspertkihtidel. Et seda lihtsalt selgitada, kujutage ette, et triljoni parameetriga mudel on massiivne raamatukogu. Tavaliselt peab arvuti vastuse andmiseks lugema läbi iga sõna igas raamatus. See võtab palju mälu ja aega. Kvantimine on viis nende raamatute kokkusurumiseks, nii et need võtavad vähem ruumi.
Paljud ettevõtted püüavad kokku suruda kogu raamatukogu, kuid see muudab tehisintellekti sageli vähem intelligentseks ja veaohtlikumaks. Xiaomi lähenes kirurgiliselt. Nad hoidsid mudeli põhiloogika kõrge eraldusvõimega, kuid surusid spetsialiseeritud ekspertkihid — raamatukogu konkreetsed osakonnad — alla 4-bitise täpsuseni. See vähendas andmemahtu, mida kiip pidi liigutama, poole võrra. Tulemuseks on mudel, mis säilitab oma kõrge IQ, liikudes samal ajal arvuti mälus kaks korda kiiremini.
On ka teine trikk nimega DFlash spekulatiivne dekodeerimine. Tüüpilises tehisintellekti vestluses on mudel nagu kirjanik, kes peab enne trükkimist mõtlema igale tähele. Spekulatiivne dekodeerimine tutvustab väsimatut praktikanti, kes püüab ennustada järgmisi sõnu. Kui praktikandil on õigus, aktsepteerib mudel kogu tekstiploki korraga. Kui praktikant eksib, parandab mudel selle. Xiaomi DFlash on nii tõhus, et pakub korraga välja kaheksa märki ja saab neist tavaliselt kuus õigesti. See võimaldab mudelil liikuda edasi hüpetega, selle asemel et roomata üks sõna korraga.
Tarkvara tõhusus seisneb sageli protsessis olevate tühimike eemaldamises. Xiaomi paaritas oma mudeli uue inferentsmootoriga nimega TileRT. Enamikus tehisintellekti süsteemides tekib pisike viivitus iga kord, kui tarkvara käsib riistvaral sooritada uue arvutuse. Neid lünki mõõdetakse mikrosekundites, kuid need summeeruvad, kui sooritate miljardeid arvutusi.
TileRT hoiab kogu arvutusprotsessi pidevalt GPU mälus. See elimineerib traditsioonilise tehisintellekti töötlemise "stopp-ja-start" olemuse. See voolujooneline lähenemine tagab, et graafikakiibid ei istu kunagi tegevuseta, oodates järgmist juhist. See kokkusurutud andmete, õnneliku pakkumise ja lünkadeta konveieri kombinatsioon on see, mis võimaldab standardsel serveril töötada nagu mitme miljoni dollarine kohandatud superarvuti.
Tavakasutaja jaoks võivad need kiirusrekordid tunduda abstraktse korporatiivse võistlusena. Mõju tarbijatehnoloogiale on aga käegakatsutav. Kui tehisintellekt on nii kiire, muutub see vestlusrobotist, kellega räägite, tööriistaks, mis töötab teie heaks taustal.
Mõelge reaalajas keeletõkkerakendusele. Praegustel kiirustel on sageli märgatav viivitus, mis muudab loomuliku vestluse keeruliseks. Kiirusel 1000 märki sekundis suudaks tehisintellekt kuulata tervet lauset, tõlkida selle kolme erinevasse keelde ja kontrollida kõigi kolme grammatikat lühema ajaga, kui teil kulub silmapilgutuseks. See kõrvaldab ebamugavad pausid piiriülestel ärikohtumistel või reisidel.
Turu poolelt on see murranguline samm tehisintellekti maksumuse osas. Xiaomi on määranud selle UltraSpeed prooviversiooni hinnaks kolm korda nende tavapärase määra, kuid nad pakuvad kümme korda suuremat väljundit. Uusi rakendusi loovate arendajate jaoks tähendab see, et nad saavad iga pilvearvutusele kulutatud dollari eest palju rohkem tööd tehtud. Arendajate madalamad kulud viivad tavaliselt odavamate või võimekamate rakendusteni lõppkasutaja jaoks.
Xiaomi edu viitab sellele, et viimaste aastate riistvarapuudus võis olla maskeeritud tarkvaraprobleem. Kuna ettevõtted mõistavad, et nad saavad parema kodeerimise kaudu saavutada tohutu jõudluse kasvu, võib surve osta kõige kallemaid ja spetsialiseeritud kiipe hääbuma hakata. Liigume perioodi poole, kus matemaatika tõhusus on sama oluline kui räni võimsus.
Võite oodata, et selle aasta lõpuks jõuab teie seadmetesse laine reaalajas tehisintellekti funktsioone. Need ei ole lihtsalt kiiremad vestlusrobotid. Otsige funktsioone, mis nõuavad tehisintellektilt kümnete võimaluste samaaegset läbimõtlemist, näiteks täiustatud kodeerimisassistendid, mis kirjutavad terveid programme sekunditega, või mängutegelased, kellel on stsenaariumivälised kohesed vestlused. Kitsaskoht ei ole enam see, kui kiiresti arvuti suudab mõelda. See on see, kui kiiresti me suudame talle midagi kasulikku teha anda.
Allikad:
Xiaomi MiMo Developer Documentation (April 2026)
Artificial Analysis LLM Leaderboard (June 2026)
TileRT Technical Whitepaper (May 2026)
Cerebras and Groq Performance Benchmarks (2025)



Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.
/ Tasuta konto loomin