为什么你的法学教授在逻辑上可能不如智能手机应用

斯坦福大学的研究人员发现，Gemini和Claude等人工智能模型在法律推理和合同法任务中的表现有75%的时间优于法学教授。

2026年6月6日

虽然我们通常将法律推理视为一种抽象的、人类独有的艺术，但斯坦福大学的最新数据表明，它实际上是一种可预测的逻辑模式。我们倾向于将法学教授想象成智慧的最终守护者，拥有机器永远无法复制的对正义的细微理解。最近的测试证明，这种假设在很大程度上是错误的。大型语言模型现在的表现经常优于教授它们的老师。

斯坦福大学的研究人员最近对人工智能进行了一次严酷的测试。他们召集了来自美国最顶尖法学院（包括耶鲁大学、纽约大学和芝加哥大学）的16位教授。这些专家起草了40个复杂的合同法问题。内容涵盖了从深奥的法律学说到假设场景以及政策辩论的所有方面。当答案提交后，人类教授们在不知情的情况下进行评分。他们不知道自己是在给同行还是电脑打分。在约75%的对比中，教授们选择了人工智能生成的答案，而非人类导师撰写的答案。

这一结果颠覆了法律行业的传统形象。它表明，“法律思维”与其说是关乎灵魂或直觉，不如说是处理海量判例并将其应用于特定事实组合的能力。从本质上讲，人工智能扮演了一个不知疲倦的实习生角色，记住了每一个判决过的案例。这个实习生不会疲倦，没有虚荣心，而且显然比律所合伙人犯的错误更少。

测试象牙塔的逻辑

要理解为什么会发生这种情况，我们必须研究这项研究的机制。研究人员使用了多种模型，包括 Google 的 Gemini 2.5 Pro 和 Anthropic 的 Claude Opus 4.7。这些不是在简单数学上挣扎的基础聊天机器人。这些系统的设计初衷是权衡模糊性并得出站得住脚的结论。在近3,000次独立比较中，人工智能模型始终如一地提供了教授们认为更适合其学生的回答。

一个有趣的指标涉及这些答案被认为具有“危害性”的频率。在法律界，一个“有害”的答案可能涉及对法律的公然误述，或可能导致客户陷入诉讼的建议。奇怪的是，人类教授被标记为有害内容比例为12.06%。Google 的 Gemini 记录的有害率仅为3.41%。这一差距表明，与数字同行相比，人类专家更容易出现遗漏错误或事实失误。人类会有状态不佳的时候；而软件有更新。

从大局来看，这些结果不仅仅是写作风格上的偶然。研究人员测试了长度、语气和清晰度，以观察人工智能是否仅仅因为听起来更自信而获胜。数据显示，即使在考虑了这些表面特征后，人工智能的优势依然存在。机器在实质内容上获胜。它们提供了更好的判例法回顾和更连贯的政策讨论。从消费者的角度来看，这一刻，高昂的法律教育成本开始显得像是一种系统性的低效。

为什么机器人写的合同比人更安全

在日常生活中，大多数人只有在点击网站上的“同意”或签署租约时才会接触到合同法。在那些术语背后，这些文件旨在成为解决争议的逻辑框架。该研究重点关注这一领域，因为它是经济的支柱。如果人工智能能够比耶鲁大学教授更好地起草和解释这些文件，那么对小企业和普通公民的影响是实实在在的。

从历史上看，获得高质量的法律意见需要巨大的经济门槛。你要为教授多年的研究和昂贵的办公室买单。现在，“优秀”法律答案的基准通过订阅即可获得。在底层，这些大语言模型正在识别法律锚点和结构组织，而人类在急于完成草案时有时会忽略这些。人工智能提供了一个稳健的框架，因为它接受的是全部法律写作的训练，而不仅仅是一个人记得的案例。

这里存在一个专业知识民主化的总体趋势。当像 Claude Opus 4.7 这样的模型在法律推理方面全面排名第一时，它就成了任何有互联网连接的人都可以使用的可扩展工具。这并不意味着律师的终结。它意味着律师不能再为算法能以高出75%的准确率完成的工作每小时收取五百美元。法律行业正面临一场剧烈变革，人类学位的价值正被拿来与处理器的产出进行权衡。

你口袋里不知疲倦的实习生

从实际出发，我们应该将这种人工智能视为一个不知疲倦的实习生，而不是法官的替代品。虽然人工智能赢得了大部分对决，但研究人员指出，该研究并未衡量答案是否符合特定导师的个人教学风格。人工智能可能会给出一个满足一般评审团的“足够好”的答案，但它可能缺乏教授带给芝加哥或洛杉矶特定课堂的那种特定风格或地方洞察力。

然而，对于普通用户来说，“足够好”通常比他们目前能接触到的要好。大多数人接触不到法学教授。他们只有一个搜索引擎和一份祈祷。从那种状态转向一个符合全美排名前14位法学院学科标准的系统，是一个巨大的飞跃。这意味着法律素养的底线正在提高。法律的数字原油——数据和判例——终于被精炼成每个人都能使用的东西。

这种转变不仅仅是为了方便，更是为了韧性。当小企业主可以使用人工智能来验证合同是否公平时，他们就不那么容易受到掠夺性行为的侵害。人工智能提供了法律实际规定的透明视角，而不是更强大的对手声称法律所规定的内容。这是市场权力分配方式的根本性变化。

这对“正确”的成本意味着什么

放大来看，我们正看到技术领域的一种周期性模式，即一种高地位的技能变成了一种商品。我们曾在计算器和会计师、GPS和导航员身上看到过这种情况。现在，它正发生在法律推理上。底线是，像律师一样思考的能力不再是稀缺资源。它成了一个软件功能。

对于学生和年轻专业人士来说，这是一个警钟。如果一个应用在推理方面已经比教授更出色，那么学习像教授一样推理就不再足够了。下一代法律专家需要专注于人工智能仍然无法做好的事情，例如法庭上的情感智能或高风险谈判所需的战略直觉。机器可以找到答案，但人类仍需决定哪些问题值得提问。

最终，你应该开始观察自己的数字习惯。下次当你对合同或法律权利有疑问时，测试一个先进的人工智能模型不再是一个未来主义的实验。这是一个务实的步骤。虽然你仍应向人类专业人士核实关键决策，但数据表明，你口袋里的机器已经能与全美最顶尖的头脑抗衡。不可触及的法律专家时代正在结束，一个更透明、更易获得的系统正在取而代之。

给普通消费者的关键要点

人工智能现在是一个可靠的第二意见。 如果你在审查一份基础合同，Google、Anthropic 和 OpenAI 的当前模型提供的推理在75%的情况下比人类草案更受专家青睐。
法律援助成本可能会下降。 随着这些工具在律所中变得更加普遍，研究和起草所需的时间将大幅缩减。这最终应导致标准法律服务的费用降低。
准确率更高，但并非完美。 虽然人工智能平均比人类“危害性”更小，但它仍有3-4%的错误率。在没有最终人工检查的情况下，绝不要依赖人工智能做出改变人生的法律决定。
法律教育正在改变。 如果你是一名学生，请专注于人工智能增强的工作流程。了解如何提示和验证大语言模型正变得与了解法律本身一样重要。

资料来源：