L'industrie technologique a passé les deux dernières années convaincue que la seule façon de rendre l'IA plus rapide était de réinventer la puce informatique. Des startups comme Groq et Cerebras ont levé des milliards de dollars pour construire du matériel massif et spécialisé, conçu pour résoudre les goulots d'étranglement de données qui ralentissent des modèles comme ChatGPT. Le récit était simple : les puces graphiques standard de Nvidia étaient adaptées à l'entraînement de l'IA, mais elles étaient trop lentes pour les réponses instantanées nécessaires dans le monde réel. Cette croyance a transformé la quête du silicium personnalisé en une véritable ruée vers l'or numérique.
Xiaomi vient de prouver que cette théorie est fausse. Lundi matin, le géant chinois de l'électronique a publié un nouveau mode de service pour son modèle phare, MiMo-V2.5-Pro-UltraSpeed. Il a fait plus que simplement battre un record de vitesse. Il a pulvérisé le plafond de ce que nous pensions possible sur du matériel standard prêt à l'emploi. Le système a atteint des vitesses de 1 200 tokens par seconde sur un modèle d'un billion de paramètres. Pour situer le contexte, un token représente environ les trois quarts d'un mot. Cela signifie que le modèle génère environ 900 mots chaque seconde.
Dans une perspective globale, c'est 15 fois plus rapide que les versions de GPT et Claude que la plupart des gens utilisent aujourd'hui. Xiaomi a réalisé cela en utilisant un nœud standard de 8 GPU — le même type de matériel que vous pouvez louer auprès de n'importe quel grand fournisseur de cloud. Ce développement suggère que le secret de la prochaine génération de vitesse d'IA n'est pas une meilleure usine de puces. C'est une façon plus intelligente d'utiliser les puces que nous possédons déjà.
Pour comprendre pourquoi cela est important, nous devons examiner comment les humains perçoivent la vitesse de l'IA. Lorsque vous posez une question à ChatGPT ou Claude, le texte apparaît généralement au rythme d'un dactylo rapide. Cela représente environ 60 à 80 tokens par seconde. Bien que cela semble rapide pour une personne lisant une réponse unique, c'est bien trop lent pour des tâches industrielles complexes. L'IA à haute vitesse est la colonne vertébrale invisible de services tels que la traduction en temps réel, la détection instantanée de fraude bancaire et les agents autonomes qui doivent prendre des milliers de décisions par minute.
Historiquement, les vitesses les plus rapides provenaient de matériel personnalisé. Cerebras a fait la une des journaux en atteignant près de 1 000 tokens par seconde sur un modèle Meta, mais cela nécessitait une puce de la taille d'une assiette. Xiaomi a atteint ce même seuil — puis l'a dépassé — sur un modèle plus de deux fois plus grand.
| Modèle | Tokens par seconde | Type de matériel |
|---|---|---|
| MiMo-V2.5-Pro-UltraSpeed | 1 200 | GPU standard |
| Gemini Flash | 192 | Google TPU (Personnalisé) |
| Claude Haiku | 98 | GPU Cloud standard |
| Claude Opus 4.6 | 71 | GPU Cloud standard |
| GPT-5.5 | 68 | GPU Cloud standard |
Sous le capot, Xiaomi a utilisé une technique appelée quantification FP4 sur les couches expertes du modèle. Pour expliquer cela simplement, imaginez qu'un modèle avec un billion de paramètres soit une bibliothèque massive. Habituellement, l'ordinateur doit lire chaque mot de chaque livre pour vous donner une réponse. Cela prend beaucoup de mémoire et de temps. La quantification est un moyen de réduire la taille de ces livres pour qu'ils prennent moins de place.
De nombreuses entreprises essaient de réduire l'ensemble de la bibliothèque, mais cela rend souvent l'IA moins intelligente et plus sujette aux erreurs. Xiaomi a été chirurgical. Ils ont conservé la logique de base du modèle en haute résolution mais ont compressé les couches expertes spécialisées — les départements spécifiques de la bibliothèque — à une précision de 4 bits. Cela a réduit de moitié la quantité de données que la puce devait déplacer. Le résultat est un modèle qui conserve son QI élevé tout en se déplaçant deux fois plus vite dans la mémoire de l'ordinateur.
Il existe également une deuxième astuce appelée décodage spéculatif DFlash. Dans une conversation IA typique, le modèle est comme un écrivain qui doit réfléchir à chaque lettre avant de la taper. Le décodage spéculatif introduit un stagiaire infatigable qui essaie de deviner les quelques mots suivants. Si le stagiaire a raison, le modèle accepte tout le bloc de texte d'un coup. Si le stagiaire se trompe, le modèle le corrige. Le DFlash de Xiaomi est si efficace qu'il propose huit tokens à la fois et en devine généralement six correctement. Cela permet au modèle de bondir par blocs plutôt que de ramper mot par mot.
L'efficacité logicielle consiste souvent à supprimer les espaces vides dans un processus. Xiaomi a associé son modèle à un nouveau moteur d'inférence appelé TileRT. Dans la plupart des systèmes d'IA, il y a un minuscule délai chaque fois que le logiciel demande au matériel d'effectuer un nouveau calcul. Ces écarts se mesurent en microsecondes, mais ils s'additionnent lorsque vous effectuez des milliards de calculs.
TileRT maintient l'ensemble du processus de calcul à l'intérieur de la mémoire du GPU en permanence. Il élimine la nature "marche-arrêt" du traitement traditionnel de l'IA. Cette approche rationalisée garantit que les puces graphiques ne restent jamais inactives en attendant l'instruction suivante. Cette combinaison de données compressées, de suppositions chanceuses et d'un pipeline sans interruption est ce qui permet à un serveur standard de fonctionner comme un superordinateur personnalisé de plusieurs millions de dollars.
Pour l'utilisateur moyen, ces records de vitesse peuvent sembler être une compétition d'entreprise abstraite. Cependant, l'impact sur la technologie grand public est tangible. Quand l'IA est aussi rapide, elle passe d'un chatbot avec lequel vous discutez à un outil qui travaille pour vous en arrière-plan.
Considérez une application de traduction linguistique en temps réel. Les vitesses actuelles présentent souvent un décalage notable qui rend la conversation naturelle difficile. À 1 000 tokens par seconde, une IA pourrait écouter une phrase complète, la traduire en trois langues différentes et vérifier la grammaire des trois en moins de temps qu'il n'en faut pour cligner des yeux. Cela élimine les pauses gênantes lors de réunions d'affaires internationales ou de voyages.
Côté marché, c'est une avancée disruptive pour le coût de l'IA. Xiaomi propose cet essai UltraSpeed à trois fois son tarif standard, mais offre une production dix fois supérieure. Pour les développeurs qui créent de nouvelles applications, cela signifie qu'ils peuvent accomplir beaucoup plus de travail pour chaque dollar dépensé en informatique cloud. Des coûts plus bas pour les développeurs mènent généralement à des applications moins chères ou plus performantes pour l'utilisateur final.
Le succès de Xiaomi suggère que la pénurie de matériel de ces dernières années était peut-être un problème logiciel déguisé. À mesure que les entreprises réalisent qu'elles peuvent obtenir des gains de performance massifs grâce à un meilleur codage, la pression pour acheter les puces spécialisées les plus chères pourrait commencer à s'estomper. Nous entrons dans une période où l'efficacité des mathématiques compte autant que la puissance du silicium.
Vous devriez vous attendre à voir une vague de fonctionnalités d'IA en temps réel arriver sur vos appareils d'ici la fin de cette année. Il ne s'agira pas seulement de chatbots plus rapides. Recherchez des fonctionnalités qui obligent l'IA à envisager des dizaines de possibilités à la fois, comme des assistants de codage avancés qui écrivent des programmes entiers en quelques secondes ou des personnages de jeux vidéo ayant des conversations instantanées non scénarisées. Le goulot d'étranglement n'est plus la vitesse à laquelle l'ordinateur peut penser. C'est la vitesse à laquelle nous pouvons lui donner quelque chose d'utile à faire.
Sources :
Xiaomi MiMo Developer Documentation (Avril 2026)
Artificial Analysis LLM Leaderboard (Juin 2026)
TileRT Technical Whitepaper (Mai 2026)
Cerebras and Groq Performance Benchmarks (2025)



Notre solution de messagerie cryptée de bout en bout et de stockage en nuage constitue le moyen le plus puissant d'échanger des données en toute sécurité, garantissant ainsi la sûreté et la confidentialité de vos données.
/ Créer un compte gratuit