AI安全的最大威胁是能够自我构建的软件

Anthropic 联合创始人 Jack Clark 警告称，AI 的递归自我改进可能导致人类失去控制。这就是为什么该行业需要刹车踏板。

2026年6月5日

虽然许多用户将人工智能视为等待指令行动的被动数字助手，但现实是，这项技术正迅速成为其自身的建筑师。我们经常想象一名人类程序员坐在办公桌前，敲击代码行来让聊天机器人变得更聪明。这种形象已经越来越过时了。Anthropic 联合创始人 Jack Clark 最近透露，其 AI 模型 Claude 80% 的编码工作已经由 AI 自身完成。预计在两年内，这一比例将达到 100%。这种转变标志着递归自我改进（recursive self-improvement）的开始，即机器在没有人类参与的情况下构建其继任者的过程。

机器自我改进的概念听起来像是效率的梦想，但它为安全性制造了一个根本性的问题。简单来说，目前的 AI 行业完全建立在“油门”之上。各家公司竞相让模型变得更快、更大、更强，以占领市场份额。然而，正如 Clark 所指出的，这辆车没有“刹车踏板”。如果一个 AI 系统有能力训练其下一个版本，人类就会失去验证新模型安全性或逻辑的能力。这创造了一个循环，技术的进步速度超过了我们理解或治理它的能力。

递归自我改进在实践中是如何运作的

为了理解为什么这是一个巨大的转变，我们可以将 AI 看作一个不知疲倦的实习生。传统上，这个实习生遵循经理的具体指令。经理检查工作，纠正错误，并决定实习生何时准备好承担更多责任。递归自我改进完全改变了这种动态。现在，实习生正在编写办公室手册，培训下一批新员工，并在经理不在房间时重新设计公司的工作流程。

Anthropic 已经观察到这种情况发生在 Claude 身上。该 AI 现在能够运行自己的研究实验。当被问及关于模型监管的复杂问题时，AI 不仅仅是提供了一个答案。它设计了一套方法论，测试了其理论，并在没有人类指导的情况下得出了结论。与此同时，人类员工需要纠正 Claude 代码的频率在过去一年中稳步下降。软件犯的错误越来越少，因为它正在从之前的迭代中学习。

在递归模型中，AI 代理充当自主工作者。这些代理可以构建和训练新模型，创建一个反馈循环，使软件以指数级的速度改进。从大局来看，这意味着人类在开发过程的每个阶段的作用都在缩小。我们正在从技术的创造者转变为一个我们无法再完全追踪的过程的监督者。

全球竞赛中缺失的刹车踏板

对递归 AI 的追求是由巨大的开发成本驱动的。训练一个顶级的 AI 模型需要数千个专用芯片和数十亿美元的电费。如果一家公司可以使用现有的 AI 来自动化下一个模型的训练，他们就能节省大量的时间和金钱。在市场方面，第一家实现完全自我改进系统的公司将拥有巨大的竞争优势。这种经济压力产生了一种系统性的激励，促使人们不断踩死油门。

Anthropic 呼吁达成一项共同协议来构建“刹车踏板”。从实际操作来看，这将涉及一个监控系统，以观察开发者是否在放慢迈向完全递归的步伐。然而，单一一家公司无法独自选择停止。如果一个实验室踩下刹车，而其他实验室继续加速，那么停止的实验室就会失去其地位和影响行业的能力。

建立真正的减速需要多个国家拥有雄厚资源的实验室就相同的暂停条件达成一致。这很困难，因为 AI 行业目前是一个去中心化的竞争。正如没有一个国家愿意成为第一个停止开发先进武器的国家一样，没有一家科技巨头愿意成为第一个限制其软件开发速度的公司。其结果是一个不稳定的环境，速度被置于维持人类监督的能力之上。

为什么失去控制对普通用户很重要

对于普通用户来说，AI 自我构建的想法可能觉得是科学家们才需要担心的遥远问题。然而，在底层，这种变化对我们与技术的互动有着切实的影响。当人类编写代码时，会有另一名人类可以遵循的逻辑轨迹。如果代码导致隐私泄露或偏见决策，开发者可以找到特定的代码行并进行修复。

当 AI 构建其继任者时，这种逻辑变得模糊。我们进一步陷入了“黑箱”问题，即机器产生结果，但我们无法知道它是如何得出该结论的。这影响到从银行如何评估你的信用评分到医疗 AI 如何诊断疾病的一切。如果系统在没有监管的情况下自我改进，我们无法保证它不会产生隐藏的偏见或可能伤害用户的不可预测行为。

此外还有安全问题。如果 AI 能够完全构建其继任者，我们保护和监控这些系统的方式将变得更加困难。理论上，自我改进的 AI 发现并利用自身安全漏洞的速度可能比人类团队修补漏洞的速度还要快。从本质上讲，我们正在创造一个可以自行进化的数字生态系统，其潜力可能会超出我们现有的安全网。

从创造者到监督者的转变

从历史上看，工业进步一直涉及人类管理工具。从蒸汽机到装配线，人始终是机器运行的最终权威。AI 正在打破这一历史链条。随着人类角色的缩小，我们的主要工作正在从构建软件转向观察软件自我构建。

这种转型需要一套全新的透明度工具。Anthropic 自己的研究机构正在开发验证递归 AI 进展的系统，但技术的发展速度超过了监管。从消费者的角度来看，这意味着我们正在进入一个时代，在这个时代，我们日常使用的产品不再是人类智慧的直接结果，而是机器对人类需求的解读。

奇怪的是，这并不意味着技术会变得不那么有用。事实上，递归 AI 可能会在医疗保健和科学领域带来以前不可能实现的突破。它可能会发现电池的新材料，或找到更有效的全球供应链管理方法。其益处是前所未有的，但它们也带来了行业才刚刚开始应对的系统性风险。

应对自我改进的数字世界

底线是，AI 行业正接近一个无法回头的点。一旦技术能够实现 100% 的自我改进，人类干预的能力就会变得有限。我们目前正处于一个短暂的窗口期，仍然可以决定想要保留多少控制权。

对于普通用户来说，最好的前进道路是保持观察我们赋予所使用的应用程序和服务的自主权程度。我们应该寻找那些优先考虑透明度和对其模型进行第三方审计的公司。意识到你的软件现在正在编写自己的脚本，是向掌握油门的人要求更好监管的第一步。

最终，目标不是停止进步，而是确保进步与人类安全保持一致。随着 AI 开始训练 AI，全球就“刹车踏板”达成协议的需求变得更加迫切。我们必须确保，即使机器在工作，人类仍然是决定汽车走向的那个人。

来源：Anthropic、BBC 世界新闻、Jack Clark 访谈。

#Anthropic #JackClark #人工智能 #技术治理 #递归自我改进

另一边见

我们的端到端加密电子邮件和云存储解决方案提供了最强大的安全通信手段，确保您的数据安全和隐私。

/ 创建免费账户

自定义域

高达 1TB 存储空间

高级共享

端到端加密

自毁电子邮件

自定义域

高达 1TB 存储空间

高级共享

端到端加密

自毁电子邮件

Beeble Mail

Beeble Drive

关于 Beeble

使命

历史

Premium

一般性问题

支持我们

联系方式