Intelligenza artificiale

Perché l'IA più veloce del mondo gira su chip standard invece che su hardware personalizzato

MiMo-V2.5-Pro-UltraSpeed di Xiaomi raggiunge i 1.000 token al secondo su GPU standard, superando ChatGPT e Claude di 15 volte grazie all'innovazione software.
Perché l'IA più veloce del mondo gira su chip standard invece che su hardware personalizzato

L'industria tecnologica ha trascorso gli ultimi due anni convinta che l'unico modo per rendere l'IA più veloce fosse reinventare il chip del computer. Startup come Groq e Cerebras hanno raccolto miliardi di dollari per costruire hardware massiccio e specializzato, progettato per risolvere i colli di bottiglia dei dati che rallentano modelli come ChatGPT. La narrazione era semplice: i chip grafici standard di Nvidia andavano bene per l'addestramento dell'IA, ma erano troppo lenti per le risposte istantanee necessarie nel mondo reale. Questa convinzione ha trasformato la caccia al silicio personalizzato in una corsa all'oro digitale.

Xiaomi ha appena dimostrato che questa teoria è errata. Lunedì mattina, il colosso cinese dell'elettronica ha rilasciato una nuova modalità di servizio per il suo modello di punta, MiMo-V2.5-Pro-UltraSpeed. Ha fatto molto di più che battere un record di velocità. Ha infranto il soffitto di ciò che pensavamo fosse possibile su hardware standard e commerciale. Il sistema ha raggiunto velocità di 1.200 token al secondo su un modello da un trilione di parametri. Per contestualizzare, un token corrisponde a circa tre quarti di parola. Ciò significa che il modello genera circa 900 parole ogni singolo secondo.

Guardando al quadro generale, questo è 15 volte più veloce delle versioni di GPT e Claude che la maggior parte delle persone usa oggi. Xiaomi ha ottenuto questo risultato utilizzando un nodo standard a 8 GPU, lo stesso tipo di hardware che si può noleggiare da qualsiasi importante fornitore di cloud. Questo sviluppo suggerisce che il segreto per la prossima generazione di velocità dell'IA non sia una fabbrica di chip migliore, ma un modo più intelligente di utilizzare i chip che già abbiamo.

Il divario di velocità in numeri

Per capire perché questo sia importante, dobbiamo guardare a come gli esseri umani percepiscono la velocità dell'IA. Quando poni una domanda a ChatGPT o Claude, il testo appare solitamente al ritmo di un dattilografo veloce. Si tratta di circa 60-80 token al secondo. Sebbene questo sembri veloce per una persona che legge una singola risposta, è decisamente troppo lento per compiti industriali complessi. L'IA ad alta velocità è la spina dorsale invisibile per attività come la traduzione in tempo reale, il rilevamento istantaneo delle frodi bancarie e gli agenti autonomi che devono prendere migliaia di decisioni al minuto.

Storicamente, le velocità più elevate provenivano da hardware personalizzato. Cerebras ha fatto notizia raggiungendo quasi 1.000 token al secondo su un modello Meta, ma ciò ha richiesto un chip delle dimensioni di un piatto piano. Xiaomi ha raggiunto la stessa soglia — e l'ha superata — su un modello che è più del doppio più grande.

Modello Token al secondo Tipo di hardware
MiMo-V2.5-Pro-UltraSpeed 1.200 GPU standard
Gemini Flash 192 Google TPU (Personalizzato)
Claude Haiku 98 GPU Cloud standard
Claude Opus 4.6 71 GPU Cloud standard
GPT-5.5 68 GPU Cloud standard

Come i trucchi software superano i limiti dell'hardware

Sotto il cofano, Xiaomi ha utilizzato una tecnica chiamata quantizzazione FP4 sui livelli esperti del modello. Per spiegarlo in termini semplici, immagina che un modello con un trilione di parametri sia una biblioteca enorme. Di solito, il computer deve leggere ogni parola di ogni libro per darti una risposta. Questo richiede molta memoria e tempo. La quantizzazione è un modo per rimpicciolire quei libri in modo che occupino meno spazio.

Molte aziende cercano di rimpicciolire l'intera biblioteca, ma questo spesso rende l'IA meno intelligente e più incline agli errori. Xiaomi è stata chirurgica. Hanno mantenuto la logica centrale del modello ad alta risoluzione ma hanno compresso i livelli esperti specializzati — i reparti specifici della biblioteca — a una precisione di 4 bit. Ciò ha dimezzato la quantità di dati che il chip doveva spostare. Il risultato è un modello che mantiene il suo alto QI muovendosi al contempo due volte più velocemente attraverso la memoria del computer.

C'è anche un secondo trucco chiamato decodifica speculativa DFlash. In una tipica conversazione IA, il modello è come uno scrittore che deve pensare a ogni singola lettera prima di digitarla. La decodifica speculativa introduce un instancabile stagista che cerca di indovinare le prossime parole. Se lo stagista ha ragione, il modello accetta l'intero blocco di testo in una volta sola. Se lo stagista sbaglia, il modello lo corregge. Il DFlash di Xiaomi è così efficiente che propone otto token alla volta e solitamente ne indovina sei. Ciò consente al modello di balzare in avanti a blocchi invece di strisciare una parola alla volta.

Il motore TileRT e la fine dei ritardi

L'efficienza del software consiste spesso nel rimuovere gli spazi vuoti in un processo. Xiaomi ha abbinato il suo modello a un nuovo motore di inferenza chiamato TileRT. Nella maggior parte dei sistemi di IA, c'è un minuscolo ritardo ogni volta che il software dice all'hardware di eseguire un nuovo calcolo. Questi divari si misurano in microsecondi, ma si sommano quando si eseguono miliardi di calcoli.

TileRT mantiene l'intero processo di calcolo all'interno della memoria GPU in ogni momento. Elimina la natura "avvio e arresto" del tradizionale processamento IA. Questo approccio snello garantisce che i chip grafici non rimangano mai inattivi in attesa della prossima istruzione. Questa combinazione di dati compressi, ipotesi fortunate e una pipeline senza interruzioni è ciò che consente a un server standard di funzionare come un supercomputer personalizzato da milioni di dollari.

Cosa significa per la tua tecnologia quotidiana

Per l'utente medio, questi record di velocità potrebbero sembrare un'astratta competizione aziendale. Tuttavia, l'impatto sulla tecnologia di consumo è tangibile. Quando l'IA è così veloce, si trasforma da un chatbot con cui parli in uno strumento che lavora per te in background.

Considera un'app di traduzione linguistica in tempo reale. Le velocità attuali hanno spesso un ritardo evidente che rende difficile una conversazione naturale. A 1.000 token al secondo, un'IA potrebbe ascoltare una frase completa, tradurla in tre lingue diverse e controllarne la grammatica in meno tempo di quello necessario per un battito di ciglia. Questo elimina le pause imbarazzanti negli incontri d'affari transfrontalieri o nei viaggi.

Sul lato del mercato, questa è una mossa dirompente per il costo dell'IA. Xiaomi sta prezzando questa prova UltraSpeed a tre volte la loro tariffa standard, ma fornisce dieci volte il rendimento. Per gli sviluppatori che creano nuove app, ciò significa che possono ottenere molto più lavoro per ogni dollaro speso nel cloud computing. Costi inferiori per gli sviluppatori di solito portano ad app più economiche o più capaci per l'utente finale.

Lungimiranza pratica

Il successo di Xiaomi suggerisce che la carenza di hardware degli ultimi anni potrebbe essere stata un problema software sotto mentite spoglie. Man mano che le aziende si rendono conto di poter ottenere enormi guadagni prestazionali attraverso una migliore programmazione, la pressione per acquistare i chip specializzati più costosi potrebbe iniziare a svanire. Ci stiamo muovendo verso un periodo in cui l'efficienza della matematica conta quanto la potenza del silicio.

Dovreste aspettarvi di vedere un'ondata di funzioni IA in tempo reale sui vostri dispositivi entro la fine di quest'anno. Non saranno solo chatbot più veloci. Cercate funzioni che richiedano all'IA di pensare a decine di possibilità contemporaneamente, come assistenti di programmazione avanzati che scrivono interi programmi in pochi secondi o personaggi di gioco che hanno conversazioni istantanee non programmate. Il collo di bottiglia non è più la velocità con cui il computer può pensare. È la velocità con cui possiamo dargli qualcosa di utile da fare.

Fonti:
Xiaomi MiMo Developer Documentation (Aprile 2026)
Artificial Analysis LLM Leaderboard (Giugno 2026)
TileRT Technical Whitepaper (Maggio 2026)
Cerebras and Groq Performance Benchmarks (2025)

bg
bg
bg

Ci vediamo dall'altra parte.

La nostra soluzione di archiviazione e-mail crittografata end-to-end fornisce i mezzi più potenti per lo scambio sicuro dei dati, garantendo la sicurezza e la privacy dei tuoi dati.

/ Creare un account gratuito