自主权的伦理：为何 Anthropic 不惜冒着失去 2 亿美元五角大楼合同的风险坚持 AI 安全

Anthropic 拒绝了五角大楼移除 Claude AI 安全护栏的要求，因伦理考量和国家安全风险而不惜冒着失去 2 亿美元合同的风险。

2026年2月27日

自主权的伦理：为何 Anthropic 不惜冒着失去 2 亿美元五角大楼合同的风险坚持 AI 安全

硅谷的伦理框架与国防部的战略需求之间的紧张关系已达到沸点。周四，作为 Claude 模型背后的 AI 安全公司，Anthropic 明确拒绝了五角大楼的一项要求，该要求本会从根本上改变其人工智能的架构。

这场争端的核心是一份价值 2 亿美元的合同，以及国防部长皮特·海格塞斯（Pete Hegseth）提出的一项要求：移除管理 Claude 行为的安全“护栏”。Anthropic 的领导层表示，他们“出于良知”无法遵守这一要求，从而为私营科技公司在国家安全中的角色引发了一场具有里程碑意义的对抗。

2 亿美元的最后通牒

冲突集中在一项大规模采购协议上，该协议旨在将 Claude 的高级推理能力整合到军事物流和战略规划中。然而，五角大楼现任领导层对商业 AI 的限制性本质感到越来越沮丧。

国防部长皮特·海格塞斯将这些安全协议形容为“枷锁”，认为它们阻碍了美国军队在面对可能不受类似伦理约束的对手时保持竞争优势。最后通牒很明确：要么 Anthropic 提供一个“无约束”版本的 Claude——使其能够生成战术建议或致命策略而不受安全过滤器的阻碍——要么合同将被终止。

“无约束访问”的真实含义

要理解为什么 Anthropic 愿意放弃如此巨额的资金，必须了解这些安全检查的作用。在大型语言模型（LLM）的世界中，护栏不仅仅是简单的关键词过滤器。它们是深度集成的训练层，通常被称为“宪法 AI”（Constitutional AI）。

这些层面防止模型协助制造生物武器、生成仇恨言论或提供网络攻击指令。为军方移除这些检查本质上是创建一个“越狱”版本的模型。虽然五角大楼认为这对于 AI 不应“教训”指挥官的高风险决策至关重要，但 Anthropic 担心，一个没有边界的模型可能会被滥用或表现出不可预测的行为，从而导致灾难性的现实危害。

“良知”辩论

Anthropic 的回应根植于其创立使命。与许多竞争对手不同，Anthropic 的建立专门为了应对灾难性 AI 失败的风险。在官方声明中，该公司强调其安全协议并非“政治正确”，而是旨在确保 AI 保持有益、无害和诚实的基本技术保障。

“我们的安全协议不是可选功能；它们是模型可靠性的基石。移除它们将意味着发布一个我们无法再保证其使用安全的工具，即使是在受控的军事环境中。”

通过诉诸“良知”，Anthropic 表明这并非关于价格或功能的谈判，而是关于战争中自主系统伦理的根本分歧。

AI 治理方法的比较

下表突出了五角大楼的需求与 Anthropic 当前安全架构之间的差异。

功能	五角大楼需求 (无约束)	Anthropic 标准 (Claude)
运行速度	实时，无过滤延迟	安全检查增加毫秒级延迟
内容过滤	针对战术场景禁用	针对有害/非法内容保持激活
模型对齐	严格对齐任务目标	对齐“宪法”安全原则
风险容忍度	高 (战略必要性)	低 (公众与生存安全)
问责制	仅限人类参与环节	内置技术约束