人工智能霸权的争夺战已进入一个充满争议的新篇章。当全世界都在关注日益强大的大型语言模型(LLM)发布时,一场围绕训练数据的影子战争正在打响。在一系列令人震惊的报告中,包括 Anthropic、OpenAI 和谷歌在内的美国顶尖 AI 公司指责数家知名的中国 AI 初创公司通过一种被称为“蒸馏攻击”(distillation attack)的技术,绕过了多年的研究和数十亿美元的投资。
最新争议的焦点是 Claude 系列模型的创建者 Anthropic。该公司最近披露,它检测到了一场大规模、有组织的窃取其知识产权的行为。据 Anthropic 称,包括 DeepSeek(深度求索)、月之暗面(Moonshot AI)和 MiniMax 在内的公司涉嫌利用超过 24,000 个虚假账号,与 Claude 进行了超过 1,600 万次对话。其目的是什么?利用 Claude 先进的推理和逻辑能力,以极低的成本训练他们自己的竞争模型。
要理解为什么这些指控如此重大,必须先了解模型蒸馏(model distillation)的概念。在合法的研究背景下,蒸馏是一种常见的技术,即训练一个更小、更高效的“学生”模型来模仿一个更大、更复杂的“老师”模型的行为。这使得开发人员能够创建快速、轻量级的 AI,使其可以在智能手机或本地硬件上运行,同时保留大规模数据中心级模型的大部分智能。
然而,当竞争对手利用对手模型的 API(应用程序编程接口)在未经许可的情况下系统地提取其知识时,就发生了蒸馏“攻击”。这就像一个学生不学习原始教科书、不做实验,而是简单地录下世界级教授说的每一句话,并利用这些录音来建立一个竞争课程。这个学生节省了多年的精力和数百万美元的学费,而教授的原创成果却被贬值了。
Anthropic 报告的活动规模之大,表明这是一种高度工业化的操作。通过创建 24,000 个独立账号,攻击者很可能试图规避“速率限制”——即 AI 公司为防止单个用户占用资源或抓取数据而设置的安全刹车。
通过在这些账号中分布 1,600 万次查询,据称这些中国公司收集了大量高质量的“合成数据”。这些数据特别宝贵,因为它们包含了 Claude 3.5 和 Claude 4 闻名遐迩的“思维链”推理过程。对于 DeepSeek 或月之暗面这样的公司来说,这些获取的数据就像是一个捷径,让他们能够在没有原始发现所需天文数字成本的情况下,弥补现有能力与最先进水平之间的差距。
Anthropic 并非孤军奋战。本月早些时候,OpenAI 和谷歌也发出了类似的警告,指出其专有模型正被以某些模式进行查询,这些模式暗示了与中国科技领域相关的实体正在进行自动化数据抓取。
这一趋势凸显了全球 AI 竞赛中日益增长的紧迫感。随着美国政府收紧对高端 NVIDIA 芯片(训练 AI 所需的核心硬件)的出口管制,中国公司正面临“算力危机”。如果他们无法获得硬件来利用原始数据从头开始训练模型,那么最可行的出路就是“蒸馏”那些拥有充裕芯片的美国公司已经完善的智能。
这些攻击的影响远超企业的资产负债表。我们正在见证一场“AI 冷战”的固化,知识产权成为了主战场。
| 特性 | 原始训练 | 蒸馏攻击 |
|---|---|---|
| 成本 | 数十亿(算力 + 人才) | 数百万(API 费用 + 抓取) |
| 时间跨度 | 多年的研发 | 数月的数据采集 |
| 硬件需求 | 数万张 H100/B200 GPU | 标准云基础设施 |
| 数据来源 | 大规模网页抓取 + 人类反馈 | 竞争对手模型的输出 |
对于美国政策制定者来说,这是一个国家安全问题。如果中国公司能够成功地在开发过程中“抄近路”,那么美国目前在 AI 安全和能力方面的领先地位可能会消失。这导致了要求对 AI API 提供商实施更严格的“了解你的客户”(KYC)要求的呼声,实际上是将访问强大的 LLM 视为与银行账户同等级别的审查对象。
AI 实验室不再仅仅专注于让模型更聪明;他们正致力于让模型更难被窃取。目前正在部署几种防御策略:
随着 AI 领域变得更具法律争议和防御性,开发者和企业应为更受限的环境做好准备。
针对 DeepSeek、月之暗面和 MiniMax 的指控代表了 AI 行业的根本转变。“开放研究”的时代正在迅速结束,因为各公司意识到其输出结果就是他们最有价值的资产。虽然美国在原始创新方面继续领先,但全球竞争对手通过蒸馏镜像这种创新的能力仍然是一个强有力的威胁。AI 冷战不再是理论上的未来,而是当下的现实。


