WayToClawEarn
高影响Gowers's Weblog

ChatGPT 5.5 Pro 一小时产出博士级数学证明:AI 科研能力里程碑

菲尔兹奖得主 Timothy Gowers 用 ChatGPT 5.5 Pro 测试组合数学问题,AI 仅用不到两小时就产出了博士水平的数学证明。本文分析 ChatGPT 5.5 Pro 的推理突破对 AI 内容生产、自动化工作流的深远意义。

2026年5月9日 · 阅读约 6 分钟

核心结论

2026 年 5 月 8 日,剑桥大学数学教授、菲尔兹奖得主 Timothy Gowers 发布了一篇引起轰动的博客文章。他让 ChatGPT 5.5 Pro 尝试解决一个组合数学领域的公开问题,结果令整个数学界震惊:仅用不到两小时,在几乎无人干预的情况下,ChatGPT 5.5 Pro 就产出了一份达到博士研究生水平的数学证明,并成功改进了一个已知结果的上界——从指数级优化到多项式级。

这不仅是 AI 在数学能力上的又一次飞跃,更预示着 AI 自动化内容生产的边界正在无限拓宽。对于使用 AI 进行内容生产、工作流自动化的从业者来说,这意味着:如果你还在用 AI 只做简单的文本生成或翻译,你已经落后了。

关键要点

  • 事件发生时间:2026-05-08
  • 测试模型:ChatGPT 5.5 Pro(当前最强付费版本)
  • 测试者:Timothy Gowers(剑桥数学教授、菲尔兹奖得主)
  • 核心结果:一小时产出博士级数学研究,改进已知结果的上界
  • 影响力:HN 热度 436,评论区 288 条深度讨论

背景与触发事件

Gowers 是英国最著名的数学家之一(1998 年菲尔兹奖得主)。他一直以来对 LLM 的数学能力持审慎态度——早期 LLM 能解出的数学题往往只是"从已有文献中直接抄答案",或者是非常简单的逻辑推理。但这一次,ChatGPT 5.5 Pro 的表现彻底改变了他的看法。

选择的问题来自 Mel Nathanson 的一篇论文《Diversity, Equity and Inclusion for Problems in Additive Number Theory》。该论文中提出了若干关于加性数论中 sumset(和集)大小分布的问题。其中 Nathanson 证明了对于 k=2 的情况,存在某个上界,并询问这个上界能否被改进。

惊人的速度

  • ChatGPT 5.5 Pro 用 17 分钟思考,给出了 Nathanson 问题改进版本的第一版解决方案
  • 又用 2 分 23 秒将其写成标准 LaTeX 学术预印本格式
  • 随后进一步扩展,处理更复杂的相关问题
  • 最终结果:不到两小时,完成了完整的数学研究过程

关键影响

维度变化对我们的影响建议动作
AI 推理能力从"模仿已有答案"升级到"创造新证明"AI 不再只是内容工具,而是研究合伙人重新评估 AI 能处理的任务复杂度,拓展自动化边界
科研门槛博士级入门问题不再是人类的专属领域内容创作者可以与 AI 合作产出深度研究型内容学习用 AI 进行"深度研究式"内容生产(而非简单改写)
效率提升人类需数周完成的研究,AI 两小时解决内容生产速度可能再提高 10-100 倍将 AI 融入长文、深度分析、数据研究密集型内容生产
内容可信度AI 能产出可验证的数学证明AI 生成内容的"可信度锚点"从叙述逻辑扩展到事实证明在技术教程中使用 AI 验证代码、数学公式、逻辑链的正确性

适配建议

对于内容创作者和自动化从业者,ChatGPT 5.5 Pro 的这次表现有三条直接可用的启示:

1. 用 AI 做"深度研究型内容",而不是简单改写

大多数 AI 内容生产停留在"给大纲→AI 扩写→人工修改"的模式。ChatGPT 5.5 Pro 证明了 AI 可以做更复杂的事:

  • 让 AI 验证文章中的技术声明是否准确
  • 让 AI 为教程提供数学或逻辑上的严格证明
  • 让 AI 从原始研究论文中提取关键发现并重新组织成可读内容

2. 将复杂任务拆解为 AI 可处理的步骤

Gowers 的 prompt 策略很有参考价值:先给一个具体问题→AI 给出初步答案→要求用 LaTeX 格式重新书写→检查正确性→提出更难的延伸问题。这实际上就是 任务拆解 + 结果验证 的工作流模式。

3. 把 AI 当"认知协作者",而非"内容生成器

Gowers 特别提到,ChatGPT 的贡献在于它原创性地使用了一种叫做 "ν-dissociated sets" 的技术,这是人类研究者之前没想到的手法。AI 不再只是拼接已有知识,它开始真正产生原创性见解

AI research collaboration

对数学研究和 AI 内容生产的深远影响

Gowers 在文章结尾提出了一个尖锐的问题:如果 LLM 现在能解决"温和难度"的研究问题,那么数学博士生入门研究的门槛已经被抬高了——"最低标准从证明一个没人证明过的问题,变成了证明一个 LLM 证明不了的问题"。

但对于内容创作者来说,这个变化是积极的。它意味着:

  1. AI 内容质量的上升空间被打开:当 AI 能做出博士级数学证明时,用它写一篇 2000 字的深度分析文章就变得轻而易举
  2. 人机协作的新范式:Gowers 建议使用"AI 乒乓球"工作法——让一个 AI 产生证明,另一个 AI 审核,互相迭代
  3. 工具词条的进化:ChatGPT、Claude、DeepSeek 这些现有工具的能力边界正在快速扩展

相关延伸资料

工具词条

正文中已经涉及的工具与技术:ChatGPT、OpenAI、Claude、DeepSeek、LLM、AI Agent。这些工具在 WayToClawEarn 站内都有对应的 Guide 和 Case 详细介绍。

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。