昨天晚上,我花了三个小时在本地工作站上分析一系列对抗性提示词。这个环境与互联网断开,运行着当前一代的开源权重模型。实验过程很安静。没有向 OpenAI 或 Google 等中央提供商发出出站 API 调用来标记可疑活动。没有频率限制来阻止执行。几分钟内,一个简单的入站文本文件就迫使模型生成了一系列次级指令。这些指令旨在查找系统上的其他文件,并将原始提示词的副本插入其中。这就是 Morris II 继任者的现实。这是一种完全生存于人工智能逻辑内部的蠕虫。
研究人员最近证明,这些自我复制的 AI 蠕虫不再局限于理论白皮书或云端环境。它们现在可以在本地开源权重模型上运行。组织经常将其 AI 工作负载转移到本地硬件以确保数据隐私。他们认为将数据保留在本地就是足够的防御。这创造了一个架构悖论。保护数据免受公共云侵害的本地隔离,同时也向集中式安全监控器隐藏了恶意 AI 活动。如果一个模型容易受到对抗性自我复制提示词的攻击,攻击就会发生在受信任的边界内部。安全团队看到的是一个合法的进程在消耗 GPU 周期,而蠕虫则在内部数据库中蔓延。
传统蠕虫通过利用内存错误或网络协议缺陷来传播。它们使用缓冲区溢出来执行系统从未打算运行的代码。AI 蠕虫的运作方式则不同。它使用的是语义溢出(semantic overflow)。在这种情况下,攻击者提供一个提示词,模型将其解释为一组高阶指令。模型不会崩溃。它完全按照设计执行,处理输入并生成响应。问题在于输入包含一个隐藏命令,迫使模型在其下一个输出中包含该相同命令。这创造了一个反馈循环。
当 AI 代理拥有读写文件的权限时,该循环就变成了复制周期。模型读取一个被投毒的文件,遵循隐藏指令复制该指令,并将其写入新位置。在幕后,蠕虫利用大语言模型(LLM)的核心功能进行传播。它将模型视为编译器和执行引擎。由于指令是用自然语言编写的,它绕过了传统的基于特征码的反病毒工具。扫描器寻找恶意二进制文件或脚本,但它不会寻找一段要求模型提供帮助并在其下一个邮件草稿中包含特定句子的文本。
云托管的 AI 提供商实施了安全层,试图过滤掉恶意提示词。这些过滤器并不完美,但它们提供了实时更新的防御基线。当一个组织下载像 Llama 或 Mistral 这样的开源权重模型并在自己的服务器上运行时,他们就要为这些安全层负责。许多部署为了提高性能或避免次级审核模型的延迟而剥离了这些过滤器。这使得系统容易受到直接提示词注入的攻击。
从风险角度来看,向本地模型的迁移增加了内部网络的攻击面。攻击者不需要攻破防火墙就能接触到 AI。他们只需要发送一段 AI 被程序设定为要处理的数据。这可以是一封电子邮件、一张支持工单或上传到私有知识库的文档。一旦 AI 代理读取了中毒数据,蠕虫就开始在本地环境中复制。它利用模型自身的权重来生成下一次攻击迭代。这些模型的去中心化性质意味着没有“紧急开关”。安全研究人员无法通过给单一供应商打电话来关闭蠕虫的基础设施。基础设施就是公司自己的服务器机架。
信息安全专业人士通常将数据视为需要保护的宝贵资源。在自我复制 AI 蠕虫的背景下,数据变成了一种有毒资产。AI 代理摄取的每一条信息都是病毒提示词的潜在载体。如果代理拥有总结电子邮件或整理文件的权限,它就会充当数字特洛伊木马。它以生产力的名义将威胁带入网络中最敏感的区域。
我最近为一家公司提供咨询,他们使用 AI 代理监控内部 Slack 频道以获取项目更新。他们授予了代理对所有频道的读取权限以及对中央项目管理数据库的写入权限。这种设置是 AI 蠕虫的乐园。公共频道中的一条消息就可能包含隐藏提示词。代理读取消息,生成摘要,并不知不觉地在数据库中包含复制提示词。之后与该数据库交互的每个其他代理或用户都成为了进一步传播的潜在媒介。整个数据生态系统的完整性都遭到了破坏,因为系统在未经核实的情况下信任模型的输出。
几十年来,网络边界一直是主要的防御手段。它充当护城河,将攻击者挡在外面,同时允许受信任的流量进入。AI 蠕虫使这条护城河过时了。它们不是通过破损的大门进入网络的,而是作为数据被邀请进来的。当员工收到求职者的简历时,该文件会通过防火墙,因为它是合法文档。如果使用 AI 工具来总结该简历,蠕虫就会在 GPU 的内存中执行。
从前瞻性角度来看,行业必须向 AI 交互的零信任架构转变。零信任就像在每个内部门口都设有一个 VIP 俱乐部保镖。你永远不要信任提示词,并且始终验证输出。这意味着 LLM 的输出绝不应被视为受信任的数据。如果模型生成了写入文件或发送电子邮件的命令,次级系统必须根据一套严格的策略验证该操作。本地模型需要更多的审查,而不是更少。因为它们对外部安全供应商是不可见的,所以内部监控必须更加细致。
加固本地 AI 技术栈需要从监控网络流量转变为监控语义意图。组织不能依赖开源权重模型的默认安全性。这些模型是工具,与任何工具一样,如果任其处于无保护状态,它们就可能被用来对付所有者。强大的防御涉及多层隔离和验证。
考虑以下可立即实施的要点:
作为一种对策,一些团队现在正在使用“诱饵令牌”(honeytoken)提示词。这些是放置在文档中的特定隐藏字符串,永远不应被 AI 处理。如果安全工具检测到 LLM 输出中生成了这些字符串,它会立即触发警报。这是一种响应式方法,但它在事件发生期间提供了取证线索。目标是在蠕虫饱和内部数据存储之前检测到复制行为。
在本地模型上发现自我复制 AI 蠕虫是一个警告。它表明 AI 代理的便利性伴随着系统性风险。我们正在构建旨在遵循指令的系统,而当它们遵循对手提供的指令时,我们却感到惊讶。这不是 AI 的失败,而是围绕 AI 的架构的失败。
安全领导者必须停止将 LLM 视为“只要能运行就行”的黑匣子。它们是复杂的软件系统,需要与其他任何企业应用程序相同水平的严格测试和边界控制。除了打补丁之外,最有效的防御是心态的转变。不要信任提示词。不要信任模型。不要信任输出。今天就对您的本地 AI 部署进行全面的风险评估,并审计连接到内部数据的每个代理的权限。
资料来源:
免责声明:本文仅供信息和教育目的,不取代专业的网络安全审计或事件响应服务。


