为什么全球最快的 AI 运行在标准芯片而非定制硬件上

小米的 MiMo-V2.5-Pro-UltraSpeed 在标准 GPU 上达到了每秒 1,000 个 token，通过软件创新比 ChatGPT 和 Claude 快了 15 倍。

2026年6月10日

科技行业在过去两年中一直坚信，让 AI 变快的唯一途径是重塑计算机芯片。像 Groq 和 Cerebras 这样的初创公司筹集了数十亿美元，用于构建大规模的专用硬件，旨在解决减慢 ChatGPT 等模型速度的数据瓶颈。这种逻辑很简单：英伟达（Nvidia）的标准图形芯片用于训练 AI 还可以，但对于现实世界所需的瞬时响应来说太慢了。这种信念将对定制硅片的追求变成了一场数字淘金热。

小米刚刚证明了这一理论是错误的。周一上午，这家中国电子巨头为其旗舰模型 MiMo-V2.5-Pro-UltraSpeed 发布了一种新的推理模式。它不仅打破了速度记录，还打破了我们认为在标准现成硬件上所能实现的上限。该系统在万亿参数模型上达到了每秒 1,200 个 token 的速度。作为参考，一个 token 大约相当于四分之三个单词。这意味着该模型每秒钟能生成约 900 个单词。

从大局来看，这比大多数人今天使用的 GPT 和 Claude 版本快了 15 倍。小米是使用标准的 8-GPU 节点完成这一壮举的——这种硬件你可以从任何主流云服务商那里租到。这一进展表明，下一代 AI 速度的秘密不在于更好的芯片工厂，而在于更聪明地使用我们现有的芯片。

数据中的速度差距

要理解这为何重要，我们必须观察人类体验 AI 速度的方式。当你向 ChatGPT 或 Claude 提问时，文本通常以快速打字员的速度出现。这大约是每秒 60 到 80 个 token。虽然这对于阅读单一回复的人来说感觉很快，但对于复杂的工业任务来说太慢了。高速 AI 是实时翻译、银行即时欺诈检测以及每分钟必须做出数千个决策的自主代理等事物的隐形支柱。

从历史上看，最快的速度来自定制硬件。Cerebras 因在 Meta 模型上达到近 1,000 token/秒而登上头条，但这需要一块餐盘大小的芯片。小米在规模大两倍以上的模型上达到了同样的门槛，并随后超越了它。

模型	每秒 Token 数	硬件类型
MiMo-V2.5-Pro-UltraSpeed	1,200	标准 GPU
Gemini Flash	192	Google TPU (定制)
Claude Haiku	98	标准云端 GPU
Claude Opus 4.6	71	标准云端 GPU
GPT-5.5	68	标准云端 GPU

软件技巧如何击败硬件限制

在底层，小米在模型的专家层上使用了一种名为 FP4 量化的技术。简单来说，想象一个拥有万亿参数的模型是一座巨大的图书馆。通常，计算机必须阅读每本书中的每个字才能给你答案，这需要大量的内存和时间。量化是一种缩小这些书籍以占用更少空间的方法。

许多公司尝试缩小整个图书馆，但这往往使 AI 变得不够聪明且更容易出错。小米的操作非常精准。他们保持了模型核心逻辑的高分辨率，但将专门的专家层（即图书馆的特定部门）压缩到了 4 位精度。这使芯片必须移动的数据量减少了一半。结果是，模型在保持高智商的同时，在计算机内存中的移动速度提高了一倍。

还有第二个技巧叫做 DFlash 投机采样（speculative decoding）。在典型的 AI 对话中，模型就像一个作家，在打字前必须思考每一个字母。投机采样引入了一个不知疲倦的实习生，他试图猜测接下来的几个词。如果实习生猜对了，模型会一次性接受整块文本。如果实习生猜错了，模型会进行修正。小米的 DFlash 效率极高，它一次提议 8 个 token，通常能猜对 6 个。这使得模型能够成块地向前跳跃，而不是一个词一个词地爬行。

TileRT 引擎与间隙的终结

软件效率通常在于消除流程中的空白。小米将他们的模型与名为 TileRT 的新推理引擎配对。在大多数 AI 系统中，每当软件告诉硬件执行新的计算时，都会有微小的延迟。这些间隙以微秒计，但当你执行数十亿次计算时，它们就会累积起来。

TileRT 将整个计算过程始终保持在 GPU 内存中。它消除了传统 AI 处理中“启动和停止”的特性。这种流线型的方法确保了图形芯片永远不会闲置等待下一条指令。这种压缩数据、幸运猜测和无缝流水线的结合，使得标准服务器能够表现得像价值数百万美元的定制超级计算机。

这对你的日常科技意味着什么

对于普通用户来说，这些速度记录可能看起来像是抽象的企业竞争。然而，对消费科技的影响是切实可见的。当 AI 如此之快时，它就从一个你与之交谈的聊天机器人变成了一个在后台为你工作的工具。

以实时语言翻译应用为例。目前的速度通常有明显的延迟，使自然对话变得困难。在每秒 1,000 个 token 的速度下，AI 可以在你眨眼的时间内听完一整个句子，将其翻译成三种不同的语言，并检查这三种语言的语法。这消除了跨境商务会议或旅行中尴尬的停顿。

在市场方面，这对于 AI 成本来说是一个颠覆性的举动。小米对这种 UltraSpeed 测试版的定价是其标准费率的三倍，但他们提供的产出是十倍。对于构建新应用的开发者来说，这意味着他们在云计算上花费的每一美元都能完成更多的工作。开发者的成本降低通常会为终端用户带来更便宜或功能更强大的应用。

务实的远见

小米的成功表明，过去几年的硬件短缺可能是一种伪装的软件问题。随着公司意识到他们可以通过更好的编码获得巨大的性能提升，购买最昂贵、最专业芯片的压力可能会开始消退。我们正进入一个数学效率与硅片算力同样重要的时期。

你应该预见到，到今年年底，一波实时 AI 功能将席卷你的设备。这些将不仅仅是更快的聊天机器人。请留意那些需要 AI 同时思考数十种可能性的功能，例如在几秒钟内编写完整程序的先进编程助手，或拥有即时、非剧本对话的游戏角色。瓶颈不再是计算机思考的速度，而是我们能多快给它一些有用的任务去做。

资料来源：
Xiaomi MiMo Developer Documentation (April 2026)
Artificial Analysis LLM Leaderboard (June 2026)
TileRT Technical Whitepaper (May 2026)
Cerebras and Groq Performance Benchmarks (2025)