安全护栏倒塌：为何 Anthropic 正在背弃其核心承诺

Anthropic 放弃了为安全而暂停 AI 扩展的承诺，标志着 AI 竞赛的重大转变。了解这对 Claude 的未来意味着什么。

2026年2月26日

多年来，Anthropic 一直被视为行业的良心。这家初创公司由前 OpenAI 高管创立，他们对盲目追求通用人工智能的行为深感担忧，并将其品牌建立在“宪法级 AI”（Constitutional AI）的概念之上。这不仅仅是一种技术方法，更是一种道德营销。但截至 2026 年 2 月底，该公司的立场发生了剧变。

在本周二发布的一份声明中，Anthropic 确认将放弃其标志性的承诺，即当安全协议落后于技术进步时，将暂停模型扩展或延迟部署。这一举动标志着一个时代的结束——在这个时代，安全曾是增长的硬约束；取而代之的是一种更具流动性、也可能更具风险的开发方式。

负责任缩放政策的侵蚀

这一转变的核心是“负责任缩放政策”（RSP）的演变。当 Anthropic 最初推出 RSP 时，它被誉为里程碑式的框架。它将 AI 能力划分为“AI 安全等级”（ASL）。如果模型达到了特定的能力阈值——例如，具备协助网络攻击的能力——该政策规定必须停止扩展，直到达到特定的安全“检查点”。

通过取消暂停的承诺，Anthropic 实际上拆除了紧急制动器。该公司辩称，形势已经发生了变化。随着全球竞争的加剧以及美国联邦监管的持续缺失，Anthropic 认为单方面的克制不再是可行的策略。如果他们停下来，那些顾虑较少的竞争对手就会顺势超越。

AI 军备竞赛的压力

这一决定并非凭空产生。在整个 2025 年到 2026 年初，AI 领域一直被对“算力霸权”的无情追求所定义。Anthropic 的旗舰模型 Claude 已成为高风险环境中的主导力量，特别是在金融建模和自动化软件工程领域。

然而，这种成功也带来了相应的压力。随着 Claude 凭借其预测准确性开始“颠覆金融市场”，对更强大模型的需求变得震耳欲聋。投资者和企业合作伙伴不再满足于“安全但较慢”的叙事。他们想要目前最强大的工具，而且现在就要。Anthropic 的转变是对现实的妥协：在高度竞争的市场中，安全往往被视为可以推迟的奢侈品。

新旧安全框架对比

为了理解这一变化的严重性，观察 Anthropic 内部逻辑的转变会很有帮助。下表展示了从“安全优先”到“部署优先”姿态的过渡。

功能	原始安全承诺	2026 年新政策
部署策略	延迟部署，直到安全基准得到验证。	与安全测试和完善同步进行。
扩展约束	如果安全措施滞后，则强制暂停。	无强制暂停；侧重于“使用中的缓解”。
监管立场	积极的自我监管，作为立法典范。	引用全球不平等现状的被动立场。
主要目标	将灾难性风险降至最低。	在安全与竞争性市场地位之间取得平衡。