行业新闻

真相之源的争夺战:大英百科全书为何起诉 OpenAI

大英百科全书和梅里亚姆-韦伯斯特起诉 OpenAI,指控 ChatGPT 记忆并重现了受版权保护的内容。探讨其法律和技术影响。
真相之源的争夺战:大英百科全书为何起诉 OpenAI

围绕生成式 AI 的法律风暴已达到新高峰。大英百科全书(Encyclopedia Britannica)及其子公司梅里亚姆-韦伯斯特(Merriam-Webster)已正式对 OpenAI 提起诉讼,指控这家 AI 巨头的模型不仅从其庞大的知识库中学习,而且实际上“背诵”了这些内容。

根据路透社的报道,这起在联邦法院提起的诉讼标志着传统出版商与大语言模型(LLM)架构师之间持续紧张关系的重大升级。虽然此前作家和新闻机构的诉讼集中在训练行为上,但大英百科全书的案例强调了一个更具技术性、或许也更具破坏性的现象:对专有事实和定义的近乎逐字逐句的重复。

冲突的核心:记忆 vs. 学习

诉状的核心在于 AI “理解”概念与简单存储文本副本之间的区别。大英百科全书指控 GPT-4 可以根据需求输出与其受版权保护文章近乎完全相同的副本。对于一家花费 250 多年时间策划人类知识的公司来说,这不仅是侵犯版权,更是对其商业模式的直接威胁。

为了理解此事的严重性,可以考虑学生和教科书的类比。如果一个学生读了一本历史书,然后根据所学内容写了一篇原创文章,这通常被认为是转换性使用。然而,如果那个学生走进考场并逐字逐句地背诵教科书,他们就不再是在展示理解力,而是充当了人类复印机。大英百科全书辩称 OpenAI 的模型正在做后者。

“重复”的证据

诉讼提供了具体的例子,据称 GPT-4 产生的回答与大英百科全书的条目“实质上相似”。在 LLM 领域,这被称为“重复(regurgitation)”。当模型在特定数据集上进行高强度训练,以至于神经网络的权重被调整为在特定关键词提示下精确重现该数据时,就会发生这种情况。

对于梅里亚姆-韦伯斯特来说,赌注同样很高。词典定义必然是简洁且具体的。如果 AI 提供的定义与梅里亚姆-韦伯斯特独特的措辞和结构细微差别相匹配,它就绕过了用户访问出版商网站的需求。这种“零点击”现实流失了广告收入和订阅潜力,而这些正是提供 AI 所依赖的高质量数据的机构所需要的。

为什么这起诉讼与众不同

我们已经见过《纽约时报》和各种著名小说家的类似案例,但大英百科全书的案例因两个原因而独特:

  1. 数据的性质: 与受创意表达保护的小说不同,百科全书是事实的集合。虽然事实本身不受版权保护,但这些事实的选择和排列可以受到保护。大英百科全书辩称,OpenAI 挪用了使其条目具有权威性的特定结构和综合方式。
  2. “真相来源”问题: OpenAI 将 ChatGPT 定位为提供事实信息的助手。如果这些信息直接来源于大英百科全书而没有署名或补偿,OpenAI 实际上是在将大英百科全书的准确性声誉作为自己的产品出售。

OpenAI 可能的辩护:合理使用与转换

虽然 OpenAI 尚未对这一特定诉讼发布完整的反驳,但其历史辩护始终如一。他们辩称,在公开可用的互联网数据上训练 AI 模型构成“合理使用”。他们认为,这些模型正在创造全新的东西——一个多用途的推理引擎——而不是现有作品的数据库。

OpenAI 还经常提到他们实施的“护栏”,以防止大英百科全书所抱怨的那种重复。然而,正如这起诉讼所表明的,这些护栏可能比公司承认的更具渗透性,特别是当用户采用特定的提示技术来“提取”训练数据时。

遗忘的技术挑战

这场法律战最困难的方面之一是 LLM 的技术现实。一旦模型在某个数据集上完成训练,“遗忘”那些特定数据是众所周知的困难。这不像从硬盘驱动器中删除文件那么简单。信息扩散在数十亿个参数中。

如果法院做出有利于大英百科全书的裁决,OpenAI 可能被迫做的不仅仅是支付罚款。他们可能被要求更积极地过滤输出,或者在对这家科技公司最坏的情况下,在没有争议数据的情况下从头开始重新训练模型——这个过程将耗费数百万美元和数月的计算时间。

这对 AI 的未来意味着什么

这起诉讼是 AI “数据许可”时代的风向标。我们正在告别 AI 公司肆无忌惮地抓取网络数据的“荒野”时期。在接下来的几个月里,我们可能会看到更多备受瞩目的合作伙伴关系,AI 公司将为访问高质量、经过验证的数据孤岛支付费用。

对于用户来说,这可能意味着 AI 的回答变得更加透明,有更清晰的引用和指向原始来源的链接。对于行业来说,这意味着构建顶级 LLM 的成本即将大幅上升,因为“免费”数据源开始设置法律付费墙。

对企业和创作者的实用建议

随着法律格局的变化,以下是你应该如何应对不断变化的环境:

  • 验证 AI 输出: 如果你使用 AI 进行事实研究,请将信息与原始来源进行交叉引用。“记忆”问题证明,AI 有时会将受版权保护的材料作为其原创思想呈现。
  • 尊重许可: 如果你正在使用 LLM API 构建工具,请意识到训练数据的法律地位仍在变化中。确保你的用例不会无意中促进侵权行为。
  • 关注先例: 大英百科全书诉 OpenAI 案的结果可能会为 AI 时代如何对待“事实性”内容设定标准。大英百科全书的胜利可能会导致一个更加碎片化、付费参与的信息生态系统。

资料来源

bg
bg
bg

另一边见

我们的端到端加密电子邮件和云存储解决方案提供了最强大的安全通信手段,确保您的数据安全和隐私。

/ 创建免费账户