AI 完胜法学院教授：斯坦福研究揭示法学教育的 AI 替代危机

斯坦福法学院最新研究发现，在盲评中法学院教授一致倾向于 AI 生成的答案而非同行撰写的答案。AI 回答被判定为教学有害的比例仅 3.5%，而教授同行撰写的答案高达 12%。这项研究正在引发法律教育领域的深刻反思。

核心结论

斯坦福法学院 Julian Nyarko 教授领导的一项开创性研究发现，在美国法学教育中，AI 生成的答案在质量上全面超越法学教授同行撰写的答案——这一发现可能重塑整个法律教育体系乃至法律行业的未来。

不同于以往 AI 评测集中在"有标准答案"的领域（如数学、编程），法律推理的特点是没有唯一正确答案——两个对立的论点可以都是好答案。这正是本研究的独特价值所在。

"在大多数测试 AI 的领域，都存在一个正确答案。在法律中，通常没有。两个对立的论点都可以是好的。我们想知道的，是 AI 能否生成与人类教授同等质量的答案。" —— Sarath Sanga，耶鲁法学院，论文合著者

评估维度	AI 答案	教授同行答案	差异
教学上有害比例	3.5%	12%	AI 低 71%
整体偏好度	显著偏好	—	AI 胜出
答案清晰度	结构化、系统化	偶有冗长跳跃	AI 更优
法律推理深度	可与教授匹敌	—	无显著差异
跨问题一致性	高	中（个体差异大）	AI 更稳定

该研究在 HN 上获得了 104 分和 26 条评论的讨论，学术界和法律科技界的反应呈现出从怀疑到正视的转变过程。

"我觉得这项研究很可疑，需要深入研究。图 2（第 6 页）明显有问题。" —— HN 用户 godelski

"作为软件工程师，我对让 AI 代理执行某些任务的风险有一些直觉。但我没有类似的直觉来判断让 AI 回答法律问题时可能出什么问题。" —— HN 用户 causal

"LLM 无法做到的是在被追问时解释它为什么这么说。它只是编造了最好的解释，就像它''给出''一个法律论点一样。" —— HN 用户 applicative

这些评论揭示了一个核心矛盾：AI 在法律领域的表现已经足够好到让教授们偏好它，但学者们对其可解释性和可靠性仍然存有深刻的怀疑。

该研究的第一作者 Alejandro Salinas 指出：

"我们的研究将注意力转移到 AI 辅导在判断密集型领域（如法律）中对学习的贡献。我们发现 AI 可以提供高质量、教学上安全的答案，这对法学教育具有重要意义。"

这项研究对整个 AI 行业有重要启示——当 AI 在"没有标准答案"的领域也能超越人类专家时，替代边界已经大幅扩展。

之前我们看到的 AI 替代案例集中在编程（有确定性答案）、数据分析、内容生成等"结果可验证"的领域。斯坦福这项研究证明，即使是需要高度复杂推理、权衡对立论点、给出合理而非唯一答案的工作，AI 也已经达到甚至超越了人类专家的水平。

对于 WayToClawEarn 的读者——AI Agent 和自动化从业者——这意味着：

本文中涉及的工具和技术：OpenAI、ChatGPT、Google NotebookLM、Claude、Gemini、DeepSeek

法学院课堂与 AI 界面融合的盲评研究可视化