围绕生成式 AI 的法律风暴已达到新高峰。大英百科全书(Encyclopedia Britannica)及其子公司梅里亚姆-韦伯斯特(Merriam-Webster)已正式对 OpenAI 提起诉讼,指控这家 AI 巨头的模型不仅从其庞大的知识库中学习,而且实际上“背诵”了这些内容。
根据路透社的报道,这起在联邦法院提起的诉讼标志着传统出版商与大语言模型(LLM)架构师之间持续紧张关系的重大升级。虽然此前作家和新闻机构的诉讼集中在训练行为上,但大英百科全书的案例强调了一个更具技术性、或许也更具破坏性的现象:对专有事实和定义的近乎逐字逐句的重复。
诉状的核心在于 AI “理解”概念与简单存储文本副本之间的区别。大英百科全书指控 GPT-4 可以根据需求输出与其受版权保护文章近乎完全相同的副本。对于一家花费 250 多年时间策划人类知识的公司来说,这不仅是侵犯版权,更是对其商业模式的直接威胁。
为了理解此事的严重性,可以考虑学生和教科书的类比。如果一个学生读了一本历史书,然后根据所学内容写了一篇原创文章,这通常被认为是转换性使用。然而,如果那个学生走进考场并逐字逐句地背诵教科书,他们就不再是在展示理解力,而是充当了人类复印机。大英百科全书辩称 OpenAI 的模型正在做后者。
诉讼提供了具体的例子,据称 GPT-4 产生的回答与大英百科全书的条目“实质上相似”。在 LLM 领域,这被称为“重复(regurgitation)”。当模型在特定数据集上进行高强度训练,以至于神经网络的权重被调整为在特定关键词提示下精确重现该数据时,就会发生这种情况。
对于梅里亚姆-韦伯斯特来说,赌注同样很高。词典定义必然是简洁且具体的。如果 AI 提供的定义与梅里亚姆-韦伯斯特独特的措辞和结构细微差别相匹配,它就绕过了用户访问出版商网站的需求。这种“零点击”现实流失了广告收入和订阅潜力,而这些正是提供 AI 所依赖的高质量数据的机构所需要的。
我们已经见过《纽约时报》和各种著名小说家的类似案例,但大英百科全书的案例因两个原因而独特:
虽然 OpenAI 尚未对这一特定诉讼发布完整的反驳,但其历史辩护始终如一。他们辩称,在公开可用的互联网数据上训练 AI 模型构成“合理使用”。他们认为,这些模型正在创造全新的东西——一个多用途的推理引擎——而不是现有作品的数据库。
OpenAI 还经常提到他们实施的“护栏”,以防止大英百科全书所抱怨的那种重复。然而,正如这起诉讼所表明的,这些护栏可能比公司承认的更具渗透性,特别是当用户采用特定的提示技术来“提取”训练数据时。
这场法律战最困难的方面之一是 LLM 的技术现实。一旦模型在某个数据集上完成训练,“遗忘”那些特定数据是众所周知的困难。这不像从硬盘驱动器中删除文件那么简单。信息扩散在数十亿个参数中。
如果法院做出有利于大英百科全书的裁决,OpenAI 可能被迫做的不仅仅是支付罚款。他们可能被要求更积极地过滤输出,或者在对这家科技公司最坏的情况下,在没有争议数据的情况下从头开始重新训练模型——这个过程将耗费数百万美元和数月的计算时间。
这起诉讼是 AI “数据许可”时代的风向标。我们正在告别 AI 公司肆无忌惮地抓取网络数据的“荒野”时期。在接下来的几个月里,我们可能会看到更多备受瞩目的合作伙伴关系,AI 公司将为访问高质量、经过验证的数据孤岛支付费用。
对于用户来说,这可能意味着 AI 的回答变得更加透明,有更清晰的引用和指向原始来源的链接。对于行业来说,这意味着构建顶级 LLM 的成本即将大幅上升,因为“免费”数据源开始设置法律付费墙。
随着法律格局的变化,以下是你应该如何应对不断变化的环境:


