Die Tech-Industrie verbrachte die letzten zwei Jahre in der Überzeugung, dass der einzige Weg, KI schneller zu machen, darin bestünde, den Computerchip neu zu erfinden. Startups wie Groq und Cerebras sammelten Milliarden von Dollar ein, um massive, spezialisierte Hardware zu bauen, die darauf ausgelegt ist, jene Datenengpässe zu lösen, die Modelle wie ChatGPT verlangsamen. Das Narrativ war simpel: Standard-Grafikchips von Nvidia waren gut genug für das Training von KI, aber sie waren zu langsam für die sekundenbruchteilschnellen Reaktionen, die in der realen Welt benötigt werden. Dieser Glaube verwandelte die Jagd nach maßgeschneidertem Silizium in einen digitalen Goldrausch.
Xiaomi hat gerade bewiesen, dass diese Theorie falsch ist. Am Montagmorgen veröffentlichte der chinesische Elektronikriese einen neuen Serving-Modus für sein Flaggschiffmodell MiMo-V2.5-Pro-UltraSpeed. Er hat mehr getan, als nur einen Geschwindigkeitsrekord zu brechen. Er hat die Obergrenze dessen gesprengt, was wir auf handelsüblicher Standard-Hardware für möglich hielten. Das System erreichte Geschwindigkeiten von 1.200 Token pro Sekunde bei einem Modell mit einer Billion Parametern. Zum Verständnis: Ein Token entspricht etwa drei Vierteln eines Wortes. Das bedeutet, dass das Modell etwa 900 Wörter pro Sekunde generiert.
Im Gesamtbild betrachtet ist dies 15-mal schneller als die Versionen von GPT und Claude, die die meisten Menschen heute nutzen. Xiaomi erreichte dies mit einem Standard-8-GPU-Knoten – genau der Art von Hardware, die man bei jedem großen Cloud-Anbieter mieten kann. Diese Entwicklung deutet darauf hin, dass das Geheimnis der nächsten Generation von KI-Geschwindigkeit nicht eine bessere Fabrik für Chips ist. Es ist ein intelligenterer Weg, die Chips zu nutzen, die wir bereits haben.
Um zu verstehen, warum das wichtig ist, müssen wir uns ansehen, wie Menschen KI-Geschwindigkeit erleben. Wenn Sie ChatGPT oder Claude eine Frage stellen, erscheint der Text normalerweise im Tempo einer schnellen Schreibkraft. Das sind etwa 60 bis 80 Token pro Sekunde. Während sich dies für eine Person, die eine einzelne Antwort liest, schnell anfühlt, ist es für komplexe industrielle Aufgaben viel zu langsam. Hochgeschwindigkeits-KI ist das unsichtbare Rückgrat für Dinge wie Echtzeit-Übersetzung, sofortige Betrugserkennung im Bankwesen und autonome Agenten, die Tausende von Entscheidungen pro Minute treffen müssen.
Historisch gesehen kamen die höchsten Geschwindigkeiten von spezialisierter Hardware. Cerebras machte Schlagzeilen, indem sie fast 1.000 Token pro Sekunde bei einem Meta-Modell erreichten, aber dafür war ein Chip von der Größe eines Speisetellers erforderlich. Xiaomi erreichte dieselbe Schwelle – und überschritt sie – bei einem Modell, das mehr als doppelt so groß ist.
| Modell | Token pro Sekunde | Hardware-Typ |
|---|---|---|
| MiMo-V2.5-Pro-UltraSpeed | 1.200 | Standard-GPUs |
| Gemini Flash | 192 | Google TPU (Spezialanfertigung) |
| Claude Haiku | 98 | Standard-Cloud-GPUs |
| Claude Opus 4.6 | 71 | Standard-Cloud-GPUs |
| GPT-5.5 | 68 | Standard-Cloud-GPUs |
Unter der Haube nutzte Xiaomi eine Technik namens FP4-Quantisierung auf den Expertenschichten des Modells. Um dies einfach zu erklären: Stellen Sie sich vor, ein Modell mit einer Billion Parametern wäre eine gewaltige Bibliothek. Normalerweise muss der Computer jedes Wort in jedem Buch lesen, um Ihnen eine Antwort zu geben. Das kostet viel Speicher und Zeit. Quantisierung ist ein Weg, diese Bücher zu schrumpfen, damit sie weniger Platz beanspruchen.
Viele Unternehmen versuchen, die gesamte Bibliothek zu schrumpfen, aber das macht die KI oft weniger intelligent und anfälliger für Fehler. Xiaomi ging chirurgisch vor. Sie behielten die Kernlogik des Modells in hoher Auflösung bei, komprimierten aber die spezialisierten Expertenschichten – die spezifischen Abteilungen der Bibliothek – auf 4-Bit-Präzision. Dies reduzierte die Datenmenge, die der Chip bewegen musste, um die Hälfte. Das Ergebnis ist ein Modell, das seinen hohen IQ behält, während es sich doppelt so schnell durch den Speicher des Computers bewegt.
Es gibt auch einen zweiten Trick namens DFlash Speculative Decoding. In einer typischen KI-Konversation ist das Modell wie ein Schriftsteller, der über jeden einzelnen Buchstaben nachdenken muss, bevor er ihn tippt. Spekulatives Dekodieren führt einen unermüdlichen Praktikanten ein, der versucht, die nächsten paar Wörter zu erraten. Wenn der Praktikant richtig liegt, akzeptiert das Modell den gesamten Textblock auf einmal. Wenn der Praktikant falsch liegt, korrigiert das Modell ihn. Xiaomis DFlash ist so effizient, dass es acht Token gleichzeitig vorschlägt und normalerweise sechs davon richtig rät. Dies ermöglicht es dem Modell, in Sprüngen voranzukommen, anstatt Wort für Wort zu kriechen.
Software-Effizienz bedeutet oft, die Leerstellen in einem Prozess zu entfernen. Xiaomi kombinierte sein Modell mit einer neuen Inferenz-Engine namens TileRT. In den meisten KI-Systemen gibt es eine winzige Verzögerung, jedes Mal wenn die Software der Hardware befiehlt, eine neue Berechnung durchzuführen. Diese Lücken werden in Mikrosekunden gemessen, aber sie summieren sich, wenn man Milliarden von Berechnungen durchführt.
TileRT hält den gesamten Rechenprozess jederzeit im GPU-Speicher. Es eliminiert die „Start-Stopp“-Natur der traditionellen KI-Verarbeitung. Dieser rationalisierte Ansatz stellt sicher, dass die Grafikchips niemals untätig sind und auf den nächsten Befehl warten. Diese Kombination aus komprimierten Daten, glücklichem Raten und einer lückenlosen Pipeline ermöglicht es einem Standard-Server, wie ein millionenschwerer, maßgeschneiderter Supercomputer zu arbeiten.
Für den Durchschnittsnutzer mögen diese Geschwindigkeitsrekorde wie ein abstrakter Wettbewerb zwischen Unternehmen erscheinen. Die Auswirkungen auf die Verbrauchertechnologie sind jedoch greifbar. Wenn KI so schnell ist, verwandelt sie sich von einem Chatbot, mit dem man spricht, in ein Werkzeug, das im Hintergrund für einen arbeitet.
Betrachten Sie eine App zur Echtzeit-Sprachübersetzung. Aktuelle Geschwindigkeiten weisen oft eine merkliche Verzögerung auf, die eine natürliche Konversation erschwert. Bei 1.000 Token pro Sekunde könnte eine KI einen ganzen Satz anhören, ihn in drei verschiedene Sprachen übersetzen und die Grammatik aller drei prüfen, in weniger Zeit, als Sie zum Blinzeln benötigen. Dies eliminiert die unangenehmen Pausen bei grenzüberschreitenden Geschäftstreffen oder auf Reisen.
Auf der Marktseite ist dies ein disruptiver Schritt für die Kosten von KI. Xiaomi bepreist diesen UltraSpeed-Test mit dem Dreifachen ihres Standardsatzes, liefert aber die zehnfache Leistung. Für Entwickler, die neue Apps bauen, bedeutet dies, dass sie für jeden Dollar, den sie für Cloud-Computing ausgeben, viel mehr Arbeit erledigen können. Niedrigere Kosten für Entwickler führen in der Regel zu günstigeren oder leistungsfähigeren Apps für den Endnutzer.
Der Erfolg von Xiaomi deutet darauf hin, dass der Hardwaremangel der letzten Jahre möglicherweise ein getarntes Softwareproblem war. Da Unternehmen erkennen, dass sie durch besseres Coding massive Leistungssteigerungen erzielen können, könnte der Druck, die teuersten und spezialisiertesten Chips zu kaufen, nachlassen. Wir bewegen uns auf eine Zeit zu, in der die Effizienz der Mathematik genauso wichtig ist wie die Leistung des Siliziums.
Sie sollten damit rechnen, bis Ende dieses Jahres eine Welle von Echtzeit-KI-Funktionen auf Ihren Geräten zu sehen. Dies werden nicht nur schnellere Chatbots sein. Achten Sie auf Funktionen, bei denen die KI Dutzende von Möglichkeiten gleichzeitig durchdenken muss, wie zum Beispiel fortschrittliche Coding-Assistenten, die ganze Programme in Sekunden schreiben, oder Spielecharaktere, die ungeskriptete Sofort-Gespräche führen. Der Engpass ist nicht mehr, wie schnell der Computer denken kann. Es ist, wie schnell wir ihm etwas Nützliches zu tun geben können.
Quellen:
Xiaomi MiMo Developer Documentation (April 2026)
Artificial Analysis LLM Leaderboard (Juni 2026)
TileRT Technical Whitepaper (Mai 2026)
Cerebras and Groq Performance Benchmarks (2025)



Unsere Ende-zu-Ende-verschlüsselte E-Mail- und Cloud-Speicherlösung bietet die leistungsfähigsten Mittel für den sicheren Datenaustausch und gewährleistet die Sicherheit und den Schutz Ihrer Daten.
/ Kostenloses Konto erstellen