揭秘 AI 训练项目：将每一次鼠标点击转化为公司资产

Meta 的 MCI 工具用于 AI 训练，通过追踪员工的点击行为，引发了美国公司目标与欧盟 GDPR 规则之间巨大的隐私冲突。

2026年5月29日

几个月前，Meta 在美国的员工收到了一份关于名为“模型能力倡议”（Model Capability Initiative，简称 MCI）的新内部项目的通知。表面上看，这听起来像是一个标准的技术升级：一个旨在帮助公司构建更好的 AI 智能体的工具。但随着该软件开始在数千台公司笔记本电脑的后台运行，该项目的真实面貌开始显得不像升级，而更像是一个数字拖网。

Meta 的目标野心勃勃。他们希望训练 AI 模型像自主智能体一样运作——这种软件可以像人类一样浏览复杂的界面、填写表格并管理工作流程。为了实现这一目标，他们需要数据。不只是任何数据，而是专业知识型工作者每秒钟的细粒度动作。每一次鼠标点击、每一次下拉菜单的滚动以及每一次应用程序之间的切换，都被收集作为公司下一代人工智能的训练材料。

然而，这一始于美国的倡议很快就陷入了跨大西洋的监管雷区。最近浮出水面的内部文件显示，该工具捕获的不止是点击；它还在吸纳那些从未报名参加该实验的欧洲同事的互动数据。这种跨境数据渗漏正在为与欧盟隐私监管机构的一场重大法律对抗埋下伏笔。

数字实验室：MCI 如何运作

要理解法律冲突，我们必须首先审视该工具的技术覆盖范围。MCI 不仅仅是一个屏幕录像机。它是一个观察者，驻留在 Meta 员工使用的 200 多个不同的应用程序和网站之上。根据内部报告，该工具追踪用户的“路径”——他们如何从 Jira 工单移动到编码环境，然后移动到 Slack 或 WhatsApp 等即时通讯应用。

把你的数字足迹想象成一串面包屑。通常，这些面包屑是分散的，最终会被扫走。但在 MCI 下，Meta 实际上是在跟随面包师，记录每块碎屑的准确重量、掉落的角度以及掉落所需的时间。这创建了一个人类行为的高保真地图，可用于通过 AI 复制该行为。

奇怪的是，该工具的实施并非无迹可寻。一些员工报告称，数据采集量如此之大，以至于在几天内就耗尽了他们的家庭互联网流量上限。更令人担忧的是一名 Meta 员工内部分析的发现，该分析表明 MCI 正在利用安全软件来访问剪贴板内容（你复制和粘贴的文本），甚至是员工活动的未加密日志。从本质上讲，该工具正在将职场变成一个巨大的真人实验室，而员工就是实验标本。

GDPR 的碰撞之路

虽然美国的劳动法通常赋予雇主在公司配发的设备上监控员工的广泛权限，但欧盟在更为严格的框架下运作：通用数据保护条例 (GDPR)。一旦 Meta 这款基于美国的工具捕获了都柏林、巴黎或柏林同事分享的信息或文档，GDPR 的管辖权就会被触发。

从合规角度来看，Meta 必须跨越三个主要障碍，而目前看来，他们在这三个方面都步履蹒跚。

1. 目的限制测试
在欧洲法律中，有一项原则称为“目的限制”。这意味着，如果你为了一个原因收集数据（例如，为了促进职场沟通），你就不能在没有新的法律依据的情况下，突然决定将其用于完全不同的目的（例如训练商业 AI 模型）。在许多监管机构看来，获取两名同事之间关于项目的聊天内容并将其输入 AI 训练集，是对这一规则的根本性违反。

2. 缺乏细粒度同意
虽然 Meta 声称数据已与身份信息“解耦”，但 GDPR 对此类说法持怀疑态度。如果数据可以通过独特的行为模式或信息的特定内容追溯到个人，它仍然属于个人数据。对于欧洲员工来说，同意必须是自由给予的、具体的、知情的。仅仅因为他们碰巧给美国同事发了邮件就间接获取他们的数据，并不符合这一门槛。

3. 比例性与侵入性
GDPR 要求数据处理必须具有比例性。为了构建 AI 智能体，真的有必要追踪每一次鼠标抖动吗？还是有更少侵入性的方法来实现这一目标？在监管语境下，MCI 这种跨数百个应用捕获点击的“全天候”特性，通常被视为对员工私人生活的过度侵入。

匿名点击的迷思

Meta 对这些担忧进行了反驳，称该工具关注的是人们“如何”使用计算机，而不是他们正在做的“内容”。他们认为，通过将数据与特定姓名解耦，他们保护了隐私。然而，在高速数据的世界里，真正的匿名化往往只是幻影。

隐私专家常将此称为“数字证人保护计划”问题。你可以改变姓名和容貌，但如果受试者走路的方式、去的地方和说话的节奏依然如故，他们就很容易被重新识别。对于知识型工作者来说，他们的“节奏”就是他们编写代码的方式、在信息中使用的特定术语以及他们的日常惯例。通过捕获剪贴板和 URL，Meta 正在摄取高度特定的标识符，这使得“解耦”成为抵御法律审查的一块非常薄弱的盾牌。

此外，该工具捕获非美国发送者的直接消息和电子邮件这一事实，产生了一种域外效力。如果一名法国员工给美国同事发送私信，而该信息被摄取到 Meta 在美国的 AI 训练库中，Meta 实际上是在没有欧盟要求的必要保护措施或披露的情况下，导出了欧洲的个人数据。

“员工数据提取工厂”

也许这个故事中最引人注目的方面是内部反应。一些 Meta 员工将公司贴上了“员工数据提取工厂”的标签。被要求提供最终将用于自动化你自己工作职能的数据，这其中蕴含着明显的讽刺。

过去，职场监控主要关乎安全或生产力——确保员工没有泄露商业机密或偷懒。MCI 代表了向“生成式监控”的转变。在这里，目标不是监视工人；而是收割工人的专业知识并将其转化为公司资产。这为那些感到自己的独特专业直觉正在被一点击一点击地商品化的员工创造了一个不稳定的环境。

应对职场 AI 的未来

随着爱尔兰数据保护委员会 (DPC) 开始调查这些做法，此案可能会成为企业界如何训练 AI 的风向标。它凸显了一种日益增长的紧张关系：公司需要海量数据集才能在 AI 竞赛中保持竞争力，但最有价值的数据往往也是最私密的。

对于希望避免 Meta 当前困境的企业来说，教训是明确的。透明度不仅仅是一个勾选框；它是基石。如果你正在部署监控行为的工具，这些工具必须遵循“隐私设计” (Privacy by Design) 原则。这意味着从一开始就整合数据最小化——只收集绝对必要的数据，并确保在数据进入训练服务器之前，过滤掉来自受保护地区（如欧盟）的数据。

数字权利与合规的关键要点：

审计你的互联性： 公司必须意识到，在一个司法管辖区收集的数据很容易涉及另一个司法管辖区的受试者。如果你的美国团队使用追踪工具，你必须评估它是否捕获了全球办公室的数据。
尽早定义目的： 明确说明收集数据的原因。如果你从“安全监控”转向“AI 训练”，你需要一个新的法律框架，并且很可能需要受影响个人的新同意。
验证匿名化声明： 不要仅仅听信供应商或 IT 部门关于数据是“匿名”的说法。进行重新识别测试，看看用户的行为模式是否会泄露其身份。
尊重被遗忘权： 如果员工离职或反对将其数据用于 AI 训练，你真的能从模型中删除他们的“点击”吗？如果答案是否定的，你可能违反了 GDPR 第 17 条。

随着我们深入 AI 时代，我们的工作与数据之间的界限将继续模糊。保护这一界限不再仅仅是法律部门的工作；它是维护现代职场信任的基本要求。

来源：