ИИ

Почему самый быстрый в мире ИИ работает на стандартных чипах, а не на специализированном оборудовании

MiMo-V2.5-Pro-UltraSpeed от Xiaomi достигает 1000 токенов в секунду на стандартных GPU, опережая ChatGPT и Claude в 15 раз благодаря программным инновациям.

Martin Clauss

Старший технологический корреспондент

10 июня 2026 г.

Почему самый быстрый в мире ИИ работает на стандартных чипах, а не на специализированном оборудовании

Технологическая индустрия провела последние два года в убеждении, что единственный способ ускорить ИИ — это заново изобрести компьютерный чип. Стартапы, такие как Groq и Cerebras, привлекли миллиарды долларов на создание массивного специализированного оборудования, предназначенного для устранения узких мест в передаче данных, которые замедляют работу таких моделей, как ChatGPT. Логика была проста: стандартные графические чипы от Nvidia хороши для обучения ИИ, но они слишком медленны для мгновенных ответов, необходимых в реальном мире. Это убеждение превратило охоту за специализированным кремнием в цифровую золотую лихорадку.

Xiaomi только что доказала ошибочность этой теории. В понедельник утром китайский электронный гигант выпустил новый режим обслуживания для своей флагманской модели MiMo-V2.5-Pro-UltraSpeed. Это событие не просто побило рекорд скорости. Оно разрушило представление о том, что возможно на стандартном, готовом оборудовании. Система достигла скорости 1200 токенов в секунду на модели с триллионом параметров. Для контекста: токен — это примерно три четверти слова. Это означает, что модель генерирует около 900 слов каждую секунду.

В глобальном масштабе это в 15 раз быстрее, чем версии GPT и Claude, которыми сегодня пользуется большинство людей. Xiaomi добилась этого, используя стандартный узел с 8 графическими процессорами (GPU) — то же самое оборудование, которое можно арендовать у любого крупного облачного провайдера. Эта разработка предполагает, что секрет следующего поколения скорости ИИ заключается не в создании лучших заводов по производству чипов, а в более умном использовании тех чипов, которые у нас уже есть.

Разрыв в скорости в цифрах

Чтобы понять, почему это важно, мы должны посмотреть на то, как люди воспринимают скорость ИИ. Когда вы задаете вопрос ChatGPT или Claude, текст обычно появляется со скоростью быстрого машиниста. Это примерно от 60 до 80 токенов в секунду. Хотя человеку, читающему один ответ, это кажется быстрым, для сложных промышленных задач этого слишком мало. Высокоскоростной ИИ — это невидимая основа для таких вещей, как перевод в реальном времени, мгновенное обнаружение мошенничества в банковской сфере и автономные агенты, которые должны принимать тысячи решений в минуту.

Исторически самые высокие скорости достигались на специализированном оборудовании. Cerebras попала в заголовки газет, достигнув почти 1000 токенов в секунду на модели Meta, но для этого потребовался чип размером с обеденную тарелку. Xiaomi достигла того же порога — и превзошла его — на модели, которая более чем в два раза больше.

Модель	Токенов в секунду	Тип оборудования
MiMo-V2.5-Pro-UltraSpeed	1 200	Стандартные GPU
Gemini Flash	192	Google TPU (Спецзаказ)
Claude Haiku	98	Стандартные облачные GPU
Claude Opus 4.6	71	Стандартные облачные GPU
GPT-5.5	68	Стандартные облачные GPU

Как программные уловки побеждают аппаратные ограничения

Если заглянуть «под капот», Xiaomi использовала технику под названием «квантование FP4» на экспертных слоях модели. Проще говоря, представьте, что модель с триллионом параметров — это огромная библиотека. Обычно компьютеру приходится прочитывать каждое слово в каждой книге, чтобы дать вам ответ. Это требует много памяти и времени. Квантование — это способ сжатия этих книг, чтобы они занимали меньше места.

Многие компании пытаются сжать всю библиотеку целиком, но это часто делает ИИ менее интеллектуальным и более склонным к ошибкам. Xiaomi действовала хирургически точно. Они сохранили основную логику модели в высоком разрешении, но сжали специализированные экспертные слои — конкретные отделы библиотеки — до 4-битной точности. Это вдвое сократило объем данных, которые чипу приходилось перемещать. В результате модель сохраняет свой высокий IQ, перемещаясь в два раза быстрее по памяти компьютера.

Есть и второй трюк под названием «спекулятивное декодирование DFlash». В обычном диалоге с ИИ модель похожа на писателя, который должен обдумывать каждую букву перед тем, как ее напечатать. Спекулятивное декодирование вводит неутомимого стажера, который пытается угадать следующие несколько слов. Если стажер прав, модель принимает весь блок текста сразу. Если стажер ошибается, модель исправляет его. DFlash от Xiaomi настолько эффективен, что предлагает по восемь токенов за раз и обычно угадывает шесть из них. Это позволяет модели продвигаться вперед кусками, а не ползти по одному слову за раз.

Движок TileRT и конец задержкам

Эффективность программного обеспечения часто заключается в устранении пустых мест в процессе. Xiaomi объединила свою модель с новым движком инференса под названием TileRT. В большинстве систем ИИ возникает крошечная задержка каждый раз, когда программное обеспечение дает команду оборудованию выполнить новое вычисление. Эти пробелы измеряются микросекундами, но они суммируются, когда вы выполняете миллиарды вычислений.

TileRT постоянно удерживает весь процесс вычислений внутри памяти GPU. Это устраняет характер «остановок и запусков» традиционной обработки ИИ. Такой оптимизированный подход гарантирует, что графические чипы никогда не простаивают в ожидании следующей инструкции. Сочетание сжатых данных, удачного угадывания и конвейера без задержек — вот что позволяет стандартному серверу работать как специализированный суперкомпьютер стоимостью в несколько миллионов долларов.

Что это значит для ваших повседневных технологий

Для обычного пользователя эти рекорды скорости могут показаться абстрактной корпоративной конкуренцией. Однако влияние на потребительские технологии вполне ощутимо. Когда ИИ работает так быстро, он превращается из чат-бота, с которым вы разговариваете, в инструмент, который работает на вас в фоновом режиме.

Рассмотрим приложение для перевода языка в реальном времени. Текущие скорости часто имеют заметную задержку, которая затрудняет естественное общение. При скорости 1000 токенов в секунду ИИ может прослушать целое предложение, перевести его на три разных языка и проверить грамматику всех трех за меньшее время, чем требуется вам, чтобы моргнуть. Это устраняет неловкие паузы в международных деловых встречах или поездках.

С рыночной точки зрения это подрывной шаг в плане стоимости ИИ. Xiaomi устанавливает цену на пробную версию UltraSpeed в три раза выше своей стандартной ставки, но при этом обеспечивает в десять раз больший объем выходных данных. Для разработчиков, создающих новые приложения, это означает, что они могут выполнять гораздо больше работы за каждый доллар, потраченный на облачные вычисления. Более низкие затраты для разработчиков обычно ведут к появлению более дешевых или функциональных приложений для конечного пользователя.

Практический прогноз

Успех Xiaomi свидетельствует о том, что дефицит оборудования последних нескольких лет мог быть замаскированной проблемой программного обеспечения. По мере того как компании осознают, что могут получить огромный прирост производительности за счет лучшего кодирования, давление, заставляющее покупать самые дорогие и специализированные чипы, может начать ослабевать. Мы движемся к периоду, когда эффективность математических алгоритмов имеет такое же значение, как и мощность кремния.

Ожидайте волну функций ИИ в реальном времени на ваших устройствах к концу этого года. Это будут не просто более быстрые чат-боты. Ищите функции, требующие от ИИ одновременного обдумывания десятков возможностей, такие как продвинутые помощники по кодированию, которые пишут целые программы за секунды, или игровые персонажи, ведущие мгновенные диалоги без сценария. Узким местом больше не является то, насколько быстро компьютер может думать. Вопрос в том, насколько быстро мы сможем дать ему полезное задание.

Источники:
Xiaomi MiMo Developer Documentation (April 2026)
Artificial Analysis LLM Leaderboard (June 2026)
TileRT Technical Whitepaper (May 2026)
Cerebras and Groq Performance Benchmarks (2025)

#XiaomiMiMo #ВычисленияНаGPU #ИнференсИИ #МашинноеОбучение #ТехноАнализ

До встречи на другой стороне.

Наше решение для электронной почты и облачного хранения данных со сквозным шифрованием обеспечивает наиболее мощные средства безопасного обмена данными, гарантируя их сохранность и конфиденциальность.

/ Создать бесплатный аккаунт

Пользовательские домены

Хранилище объемом до 1 ТБ

Расширенное совместное использование

Шифрование на всех этапах

Самоуничтожающиеся электронные письма

Пользовательские домены

Хранилище объемом до 1 ТБ

Расширенное совместное использование

Шифрование на всех этапах

Самоуничтожающиеся электронные письма

Beeble Mail

Beeble Drive

О Beeble

Миссия

История

Premium

Общие вопросы

Поддержите нас

Свяжитесь с нами