多年来,Anthropic 一直被视为行业的良心。这家初创公司由前 OpenAI 高管创立,他们对盲目追求通用人工智能的行为深感担忧,并将其品牌建立在“宪法级 AI”(Constitutional AI)的概念之上。这不仅仅是一种技术方法,更是一种道德营销。但截至 2026 年 2 月底,该公司的立场发生了剧变。
在本周二发布的一份声明中,Anthropic 确认将放弃其标志性的承诺,即当安全协议落后于技术进步时,将暂停模型扩展或延迟部署。这一举动标志着一个时代的结束——在这个时代,安全曾是增长的硬约束;取而代之的是一种更具流动性、也可能更具风险的开发方式。
这一转变的核心是“负责任缩放政策”(RSP)的演变。当 Anthropic 最初推出 RSP 时,它被誉为里程碑式的框架。它将 AI 能力划分为“AI 安全等级”(ASL)。如果模型达到了特定的能力阈值——例如,具备协助网络攻击的能力——该政策规定必须停止扩展,直到达到特定的安全“检查点”。
通过取消暂停的承诺,Anthropic 实际上拆除了紧急制动器。该公司辩称,形势已经发生了变化。随着全球竞争的加剧以及美国联邦监管的持续缺失,Anthropic 认为单方面的克制不再是可行的策略。如果他们停下来,那些顾虑较少的竞争对手就会顺势超越。
这一决定并非凭空产生。在整个 2025 年到 2026 年初,AI 领域一直被对“算力霸权”的无情追求所定义。Anthropic 的旗舰模型 Claude 已成为高风险环境中的主导力量,特别是在金融建模和自动化软件工程领域。
然而,这种成功也带来了相应的压力。随着 Claude 凭借其预测准确性开始“颠覆金融市场”,对更强大模型的需求变得震耳欲聋。投资者和企业合作伙伴不再满足于“安全但较慢”的叙事。他们想要目前最强大的工具,而且现在就要。Anthropic 的转变是对现实的妥协:在高度竞争的市场中,安全往往被视为可以推迟的奢侈品。
为了理解这一变化的严重性,观察 Anthropic 内部逻辑的转变会很有帮助。下表展示了从“安全优先”到“部署优先”姿态的过渡。
| 功能 | 原始安全承诺 | 2026 年新政策 |
|---|---|---|
| 部署策略 | 延迟部署,直到安全基准得到验证。 | 与安全测试和完善同步进行。 |
| 扩展约束 | 如果安全措施滞后,则强制暂停。 | 无强制暂停;侧重于“使用中的缓解”。 |
| 监管立场 | 积极的自我监管,作为立法典范。 | 引用全球不平等现状的被动立场。 |
| 主要目标 | 将灾难性风险降至最低。 | 在安全与竞争性市场地位之间取得平衡。 |
这一政策转变的时机特别敏感。行业目前正在应对“软件之死”——这是一种 AI 模型在编码方面变得如此精通,以至于传统软件开发生命周期正在崩溃的现象。当一个模型可以在几秒钟内生成、测试和部署复杂的应用程序时,人类监督的窗口就消失了。
通过取消延迟部署的要求,Anthropic 实际上是在押注它可以实时“修补”安全问题。批评者认为这是一个危险的赌博。如果一个具有未知能力的模型被释放到野外,在安全团队识别出问题之前,损失(无论是市场闪崩还是系统性安全漏洞)可能已经造成。
对于依赖 Anthropic 生态系统的企业和开发人员来说,这一政策变化要求您转变管理风险的方式。您不能再假设供应商提供的“安全性”与以前处于同一水平。
Anthropic 背弃其标志性承诺,对 AI 社区来说是一个令人清醒的时刻。这表明,“设计即安全”的理想化愿景正难以在商业熔炉的炽热中生存。虽然 Anthropic 坚持认为它仍致力于安全,但这种承诺的定义显然已经缩小。
随着我们迈入 2026 年,AI 安全的负担正在从创造者转移到消费者身上。这场竞赛不再仅仅关乎谁能制造出最聪明的机器,而关乎在这些机器以前所未有的速度被释放时,谁能保持掌控。
来源:



