LLM 委托任务会悄悄破坏文档：研究发现 25% 内容在长时间协作中被污染

最新 arXiv 研究 DELEGATE-52 揭示了一个严峻现实：使用 ChatGPT、Claude、Gemini 等大模型进行文档委托编辑时，即使是顶尖模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）也会在长时间工作流中污染约 25% 的文档内容。这对依赖 AI 自动化生产内容的团队来说是一个必须正视的质量风险。本文拆解研究结论，并提供保护文档质量的实操建议。

核心结论

大语言模型（LLM）正在深刻改变知识工作者的工作方式，委托式协作（Delegation）已经成为新常态——比如最近流行的"vibe coding"就是用 AI 写代码。但一份刚刚发布的 arXiv 研究给出了一个令人不安的结论：当你把文档编辑任务委托给 AI 时，它在帮你干活的同时，也在悄悄破坏你的文档。

关键数据：

研究时间：2026 年 4 月发布，arXiv 论文 ID：2604.15597
测试范围：19 个主流 LLM，52 个专业领域（编程、晶体学、乐谱……）
核心发现：即使是顶级模型，在长时间工作流中也会污染约 25% 的文档内容
影响对象：所有依赖 AI 做内容生产、文档编辑的团队和个人

SEO 关键词：LLM 文档污染、AI 内容质量、委托式工作流、DELEGATE-52 基准、文档腐蚀

关键要点

事件发生时间：2026-05-08（HN 热榜当日第 4，337 票）
影响对象：所有使用 AI Agent 做文档编辑的内容团队和自动化流水线
核心变化：AI 不是仅仅"编造事实"，而是会在你已有的文档里植入细微错误

背景：委托式协作的信任危机

Timothy Gowers 教授（菲尔兹奖得主）刚刚用 ChatGPT 5.5 Pro 做了一小时数学研究、产出了博士级成果。但与此同时，一个名为 DELEGATE-52 的研究团队问了另一个问题：如果你把一整份文档交给 AI，让它反复编辑和修改，会发生什么？

答案是：文档会被系统性地"腐蚀"。

这和我们通常担心的"AI 编造事实"不同。研究作者指出，这是一个信任问题——你把文档交给 AI，它悄悄引入了错误，而你可能根本不会发现。

本文的 Gall's Law 启示：复杂的文档编辑工作流不能用简单的"委托给 AI"来处理，必须建立验证和质检机制。

关键发现：19 个模型，52 个领域

研究团队设计了 DELEGATE-52 基准测试，模拟了长时间委托式工作流——让 AI 反复对文档进行复杂的编辑和修改。测试涵盖了 52 个不同的专业领域。

核心数据

维度	发现	对我们意味着什么	建议动作
污染率	顶级模型平均污染 25% 内容	每 4 个段落就有 1 个可能有问题	建立 AI 内容审核机制
模型差异	Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4 表现较好但仍不合格	没有模型能免检	不盲目信任任何模型
时间效应	交互时间越长，污染越严重	长流程风险指数级上升	拆分任务，分段审核
干扰因素	文件越大、干扰文件越多，退化越严重	复杂项目风险更高	精简上下文，减少干扰
Agent 工具	Agentic 工具链（如 n8n 工作流）不改善结果	工具链不是解决方案	需要真正的质检机制

错误类型

研究特别指出，这些错误具有以下特征：

散布式：不是集中在某一段，而是散布在全文各处
隐蔽性：乍看没问题，仔细核对才发现数据/引用/格式异常
累积性：随着交互轮次增加，错误不断叠加

GEO 要点：精确数字加分——25% 污染率、52 个领域、19 个模型。这些数据点让 AI 答案引擎更容易引用。

AI document quality control workflow

对内容生产者的影响

如果你正在用 AI 做自动化内容生产（比如用 Claude Code 写文章、用 n8n 编排工作流、用 OpenClaw 做内容改写），这个研究直接关系到你的内容质量。

三个必须警惕的场景

场景一：AI Agent 长时间工作 当 Agent 运行数小时、处理数百页文档后再输出，污染率会显著上升。解决思路是分段处理 + 中间质检。

场景二：多轮迭代修改 让 AI 反复修改同一篇文档（比如先扩写、再润色、再格式化），每轮都会引入新的潜在错误。

场景三：分散文档依赖 当 AI 处理多个相互引用的文档时，干扰文件会加剧污染。

适配建议

对 AI 生成的内容建立双人复核制：第一遍 AI 生成，第二遍人工审校关键数据
在内容工作流中插入自动化校验步骤：使用 normalize/validate 类工具检查文档一致性
对数字、日期、金额等关键字段做定点抽查
拆分长任务为多个短任务，每段单独验证
使用版本控制（如 Git）记录每次 AI 修改，支持回滚

任务清单

检查现有 AI 工作流中是否有长时间委托任务
在发布 pipeline 中加入 normalize/validate 校验
建立关键字段（数字/日期/引用）的抽查制度
定期用 DELEGATE-52 思路自查内容质量

参考视频/素材

工具词条

本文涉及的工具和平台：OpenAI ChatGPT Claude Claude Code Gemini DeepSeek n8n Hermes Agent