AI 的被遗忘权：为什么机器取消学习是下一个重大的隐私前沿

探讨“机器取消学习”的挑战，以及被遗忘权如何迫使生成式 AI 和大语言模型进行重新设计。

2026年2月26日

2014年，欧洲法院确立了一个具有里程碑意义的原则：“被遗忘权”。这是人类自主权的一次胜利，确保了个人可以要求从搜索引擎结果中删除过时或无关的个人信息。十年来，这意味着删除一个 URL 或擦除一个数据库条目——这是一种外科手术式的、二进制的操作。

但随着我们深入进入生成式 AI 时代，这种手术变得异常复杂。今天，我们的数据不仅仅是存储在行和列中；它被编织进了大语言模型（LLMs）的统计结构中。当模型“学习”你的面部、你的写作风格或你的个人历史时，它并不会保存一个文件，而是调整了数十亿个数学权重。这种从静态存储到概率记忆的转变，在人权与机器架构之间制造了一种根本性的紧张关系。

数字记忆的架构

要理解为什么“取消学习”如此困难，可以将传统的数据库想象成一个文件柜。如果你想移除一份文件，只需拉出文件夹并将其粉碎，文件柜的其余部分保持不变。

生成式 AI 的运作方式更像是一大锅汤。训练过程中使用的每一条数据都是搅拌进肉汤里的原料。你无法在不改变整锅汤味道的情况下，简单地从做好的意大利蔬菜汤中提取出盐或特定的胡椒粒。在 LLM 中，你的个人数据分布在整个神经网络中。由于这些参数是相互依赖的，移除某一个特定人的影响通常需要从头开始重新训练模型——这个过程耗资数百万美元，且需要数月的计算时间。

法律的碰撞

监管机构越来越不愿接受“技术太难”作为借口。在欧洲的 GDPR 和加州的 CCPA 框架下，删除权是与技术无关的。如果一个模型可以幻觉出你的家庭住址或复制你的私人信件，那么该模型在技术上就是在处理你的数据。

我们正看到法院对“数据占有”看法的转变。这不再仅仅关乎文件存放在哪里，而关乎系统的行为方式。如果 AI 可以通过“成员推断攻击”（即黑客探测模型以查看特定数据是否属于其训练集的一部分）重构敏感信息，那么无论原始数据是否已从训练服务器中删除，隐私风险都是实时存在的。

机器取消学习的兴起

作为回应，一个名为“机器取消学习”（Machine Unlearning）的新研究领域应运而生。其目标是开发出能够减去特定数据点的影响，同时又不破坏模型整体效用的算法。

方法	运作方式	优点	缺点
SISA (分片)	将模型训练在细小、隔离的分片中。	更容易仅重新训练一个分片。	存储开销高。
梯度擦除	逆转特定数据的优化步骤。	比全面重新训练更快。	可能降低整体准确性。
影响函数	识别哪些神经元“记住”了目标数据。	针对性极强。	对大型模型的计算成本极高。
差分隐私	在训练期间加入数学噪声。	防止数据被学习。	可能使模型变得不那么“聪明”。