人工智能

为什么你获得的最佳 AI 答案可能来自一群廉价模型,而非一个天才模型

OpenRouter 的 Fusion API 利用廉价 AI 模型,以一半的价格实现了与 Claude Fable 5 相当的性能。该产品发布之际,正值 Anthropic 的顶级模型面临出口禁令。
为什么你获得的最佳 AI 答案可能来自一群廉价模型,而非一个天才模型

大多数人认为,地球上最聪明的 AI 是那些拥有最大服务器集群和最昂贵订阅费的模型。当 Anthropic 和 OpenAI 等巨头竞相构建下一个巨型模型时,行业边缘正在涌现出一种不同的策略。企业不再依赖一个庞大的“大脑”,而是开始使用由更小、更便宜的模型组成的专家组,在思考能力上超越那些重量级选手。

OpenRouter 于 6 月 12 日推出了一款名为 Fusion 的 API,旨在测试这一理论。它的出现正值 AI 市场突然稀缺的时刻。就在 Anthropic 发布其高端 Fable 5 模型时,一项美国出口管制指令迫使该公司停止向全球范围内的外国国民提供服务。这一举动是由一项关于越狱漏洞的争议性调查结果触发的。OpenRouter 填补了这一真空,并给出了一个直截了当的承诺:以一半的价格提供 Fable 级别的智能。

群体智慧的底层运作机制

使用 AI 的传统方式就像咨询一位顾问。你提出一个问题,那个模型根据其训练给出最佳猜测。如果它产生幻觉或遗漏了细节,你没有第二种意见。Fusion 将工作流程转变为更像公司董事会会议的形式。

当用户发送提示词时,系统会同时将其发送给几个不同的 AI 模型。这些模型并行工作,使用网络搜索和软件工具来查找事实。完成后,一个裁判模型会检查所有答案,找出它们的共识点和矛盾点。最后,一个合成器(默认情况下是 Claude Opus 4.8)会汇总所有笔记,并编写一个统一、连贯的回复。

这种方法将 AI 视为一名不知疲倦的实习生,在经过同行交叉检查时表现最佳。大部分性能提升来自最后的合成步骤。让一个独立的模型审视多个视角,可以减少单一偏见或错误进入最终输出的可能性。对于普通用户来说,这意味着答案是基于共识的,而不是基于某个特定算法的怪癖。

廉价大脑背后的数学逻辑

行业通过基准测试来衡量性能,而 Fusion 的结果意义重大。在 DRACO 基准测试中(该测试使用来自真实用户的复杂研究请求),廉价 AI 模型组的表现几乎与市场上最顶尖的单体模型持平。

OpenRouter 将谷歌的 Gemini 3 Flash 与两款中国模型 Kimi K2.6 和 DeepSeek V4 Pro 配对。就其本身而言,这些模型相对便宜,且往往缺乏像 GPT-5.5 这样的高端模型的深度。然而,当通过 Claude Opus 进行融合和合成时,这个“廉价三人组”在基准测试中获得了 64.7% 的分数。

模型配置 DRACO 基准测试得分 相对成本
Fable 5 + GPT-5.5 (由 Opus 合成) 69.0%
独立 Claude Fable 5 65.3%
Fusion 廉价专家组 (Gemini/Kimi/DeepSeek + Opus) 64.7% 低 (约 50%)
独立 GPT-5.5 60.0%
独立 Claude Opus 4.8 58.8%

这个廉价专家组击败了 GPT-5.5 和 Opus 4.8 的独立版本。它的得分与 Fable 5 仅相差一个百分点,而每千字文本的成本大约只有后者的一半。这表明,对于一般性研究而言,全能型昂贵模型的时代已经结束。

应对出口管制缺口

此次发布的时机凸显了 AI 监管方式的转变。Anthropic 决定暂停向外国用户提供 Fable 5 和 Mythos 5,是对政府关于安全风险指令的回应。对于美国以外的开发者来说,这造成了一个紧迫的问题,他们的应用程序在一夜之间停止了工作。

Fusion 提供了一种在不绑定于单一、政治波动供应商的情况下保持高性能的方法。由于该 API 使用了多种模型的混合,包括来自不同国家的开源权重选项,因此它对突然的停服更具韧性。如果一个模型变得不可用,专家组可以重新配置不同的专家来填补空缺。这种设置为需要高水平推理但无法再直接访问美国高端模型的用户提供了一个实用的解决方案。

相反,怀疑论者指出,这并没有解决底层的出口问题。Fusion 仍然运行在通过 OpenRouter 基础设施路由的模型上,而这些基础设施最终可能也会面临自身的监管障碍。目前,它是一种绕过行业最精英工具高成本和低可用性的方法。

群体方法的不足之处

尽管基准测试数据令人印象深刻,但 Fusion 并非在所有场景下都是顶级模型的完美替代品。DRACO 测试侧重于研究和规划,在这些领域,多视角是一种优势。当涉及到长周期工作或深度编程时,单一的高度专业化模型仍然保持领先。

来自用户的早期反馈表明,Fusion 在处理复杂的工具调用和软件开发时可能会感到吃力。在这些情况下,协调多个不同模型的开销可能会导致混乱。Fusion 更适合作为主模型在需要进行深度研究时调用的工具,而不是作为编程代理的完全替代品。

此外还有透明度的问题。由于 Fable 5 目前受到限制,独立研究人员很难实时验证这些对比。X 平台发布帖中的怀疑论者指出,如果模型在网络搜索过程中意外发现了评分标准,基准测试可能会被操纵。虽然 OpenRouter 声称已经过滤了这些结果,但 AI 行业不透明的性质使得很难确定每一个结果的真实性。

这对你的数字化预算意味着什么

对于普通用户来说,这一转变标志着高端智能的民主化。你不再需要每月向单一供应商支付 30 美元来获得最佳答案。开发者现在可以使用免费或低成本后端的混合体,构建提供高端推理能力的应用程序。

从实际角度来看,这意味着智能助手、研究工具和数据分析软件的成本应该开始下降。如果一组廉价模型能够匹配巨头的性能,那么高端实验室最终将失去定价权。用户应该寻找允许模型切换或混合处理的工具,因为这些工具在未来几个月内可能会提供最佳的性价比。

最终,将 AI 视为一个模块化系统,不同的“大脑”处理任务的不同部分。Fable 5 的消失提醒我们,依赖单一来源是有风险的。Fusion 证明,一个组织良好的模型群体可以像受限的天才一样聪明。

Sources:
OpenRouter Official Launch Documentation, June 2026.
Perplexity DRACO Benchmark Results Report, 2026.
Anthropic Export Control Compliance Statement, June 2026.
Sentiment Analysis and Technical Reviews via X and AI Research Communities.

bg
bg
bg

另一边见

我们的端到端加密电子邮件和云存储解决方案提供了最强大的安全通信手段,确保您的数据安全和隐私。

/ 创建免费账户