硅谷的伦理框架与国防部的战略需求之间的紧张关系已达到沸点。周四,作为 Claude 模型背后的 AI 安全公司,Anthropic 明确拒绝了五角大楼的一项要求,该要求本会从根本上改变其人工智能的架构。
这场争端的核心是一份价值 2 亿美元的合同,以及国防部长皮特·海格塞斯(Pete Hegseth)提出的一项要求:移除管理 Claude 行为的安全“护栏”。Anthropic 的领导层表示,他们“出于良知”无法遵守这一要求,从而为私营科技公司在国家安全中的角色引发了一场具有里程碑意义的对抗。
冲突集中在一项大规模采购协议上,该协议旨在将 Claude 的高级推理能力整合到军事物流和战略规划中。然而,五角大楼现任领导层对商业 AI 的限制性本质感到越来越沮丧。
国防部长皮特·海格塞斯将这些安全协议形容为“枷锁”,认为它们阻碍了美国军队在面对可能不受类似伦理约束的对手时保持竞争优势。最后通牒很明确:要么 Anthropic 提供一个“无约束”版本的 Claude——使其能够生成战术建议或致命策略而不受安全过滤器的阻碍——要么合同将被终止。
要理解为什么 Anthropic 愿意放弃如此巨额的资金,必须了解这些安全检查的作用。在大型语言模型(LLM)的世界中,护栏不仅仅是简单的关键词过滤器。它们是深度集成的训练层,通常被称为“宪法 AI”(Constitutional AI)。
这些层面防止模型协助制造生物武器、生成仇恨言论或提供网络攻击指令。为军方移除这些检查本质上是创建一个“越狱”版本的模型。虽然五角大楼认为这对于 AI 不应“教训”指挥官的高风险决策至关重要,但 Anthropic 担心,一个没有边界的模型可能会被滥用或表现出不可预测的行为,从而导致灾难性的现实危害。
Anthropic 的回应根植于其创立使命。与许多竞争对手不同,Anthropic 的建立专门为了应对灾难性 AI 失败的风险。在官方声明中,该公司强调其安全协议并非“政治正确”,而是旨在确保 AI 保持有益、无害和诚实的基本技术保障。
“我们的安全协议不是可选功能;它们是模型可靠性的基石。移除它们将意味着发布一个我们无法再保证其使用安全的工具,即使是在受控的军事环境中。”
通过诉诸“良知”,Anthropic 表明这并非关于价格或功能的谈判,而是关于战争中自主系统伦理的根本分歧。
下表突出了五角大楼的需求与 Anthropic 当前安全架构之间的差异。
| 功能 | 五角大楼需求 (无约束) | Anthropic 标准 (Claude) |
|---|---|---|
| 运行速度 | 实时,无过滤延迟 | 安全检查增加毫秒级延迟 |
| 内容过滤 | 针对战术场景禁用 | 针对有害/非法内容保持激活 |
| 模型对齐 | 严格对齐任务目标 | 对齐“宪法”安全原则 |
| 风险容忍度 | 高 (战略必要性) | 低 (公众与生存安全) |
| 问责制 | 仅限人类参与环节 | 内置技术约束 |
OpenAI 和谷歌等其他 AI 巨头正密切关注这场僵局。如果 Anthropic 失去合同,它将留下一个真空,可能会由一家更顺从的公司填补。然而,这也为科技公司如何抵制政府将其产品武器化或“去安全化”的压力树立了先例。
对于更广泛的科技行业来说,这凸显了日益增长的“双用途”困境。专为民用生产力设计的软件可以被重新用于动能军事行动。当软件开发者失去对模型思维方式的控制时,产生意外后果的可能性(例如 AI 为升级冲突而幻觉出理由)会呈指数级增长。
随着 AI 进一步融入政府和高风险基础设施,开发者和高管应考虑以下几点:
如果五角大楼履行其取消合同的威胁,Anthropic 将面临巨大的收入缺口,但其作为“安全第一”的 AI 公司的声誉可能会得到巩固。与此同时,国防部可能会转向构建自己的内部模型,或与愿意构建不带商业产品严苛护栏的小型、更细分的国防科技初创公司合作。
在人工智能时代,民用技术与军事能力之间的界限持续模糊,这场冲突很可能只是众多冲突中的第一场。



