ChatGPT 5.5 Pro 一小时搞定博士级数学题:菲尔兹奖得主亲测
菲尔兹奖得主 Timothy Gowers 亲测 ChatGPT 5.5 Pro:一小时内独立完成博士级数学研究,彻底改写了对 AI 数学能力的评价。
2026年5月9日 · 阅读约 5 分钟
核心结论
2026年5月8日,菲尔兹奖得主、剑桥大学教授 Timothy Gowers 公开分享了他对 ChatGPT 5.5 Pro 的实测体验:这款模型仅用约一小时就完成了一项博士级数学研究,解决了数论中一个未被完全描述的组合问题,全程几乎不需要 Gowers 本人进行任何实质性数学输入。
| 维度 | 数据 |
|---|---|
| 测试时间 | 2026年5月8日 |
| 测试者 | Timothy Gowers(菲尔兹奖得主,1998) |
| 模型 | ChatGPT 5.5 Pro |
| 耗时 | 约1小时 |
| 解决的问题 | 加性数论中的 sumset 大小可能性问题 |
| 此前 LLM 对同领域判断 | 曾有疑虑,测试后大幅上调评估 |
关键要点
- Gowers 此前对 LLM 数学能力持谨慎态度,本次测试后宣布"大幅上调评估"
- 模型解决的是 Nathanson 论文中提出的、人类数学家尚未完整描述的问题
- AI 不仅找到解决方案,还能给出清晰的数学论证过程
- 这标志着 AI 从"拼凑已知知识"到"产出实质原创数学"的跨越
背景:从怀疑到震惊
Timothy Gowers 是剑桥大学纯数学与数理统计学系的教授,1998年因将泛函分析与组合学联系起来的工作获得菲尔兹奖。长期以来,他对 LLM 的数学能力持审慎甚至怀疑态度。
Gowers 之前观察到,LLM 能解决的"开放问题"往往有现成答案藏在文献中,或者非常容易从已知结果推导。但他在博客中坦言:
"笑声越来越小了。"
他注意到,数学家社群已经开始意识到——如果一个开放问题存在某个"人类还没来得及注意到"的简单论证,LLM 有很大概率能发现它。反之,那些看似"聪明"的论证,追根溯源也常常只是把既有知识重新组合——而这正是大量人类数学工作的本质。
测试设计:Nathanson 的加性数论问题
Gowers 选择了 Mel Nathanson 的一篇论文 《Diversity, Equity and Inclusion for Problems in Additive Number Theory》 作为测试素材。这篇论文提出了一系列关于 sumset(求和集)的开放问题。
问题的数学本质
如果 $A$ 是一个整数集合,那么它的 sumset 定义为 $A + A = {a + b : a, b \in A}$。对于正整数 $h$,$h$-fold sumset 记为 $hA$。
Nathanson 感兴趣的问题是:已知 $|A| = k$ 时,$|hA|$ 可能取哪些值?即定义集合 $\mathcal{M}(h, k) = {|hA| : |A| = k}$,那么 $\mathcal{M}(h, k)$ 具体是什么?
当 $h = 2$ 时,答案是 $k$ 到 $2k-1$ 之间的所有整数——这是一个简单的习题结论。但是当 $h$ 更大时,$\mathcal{M}(h, k)$ 并不包含其最小值和最大值之间的所有数值,人类数学家目前还没有完整的描述。
正是这类问题,ChatGPT 5.5 Pro 只用了一个小时就给出了实质性的数学贡献。
关键影响:从拼凑到原创
| 维度 | 变化 | 对我们的意义 | 建议动作 |
|---|---|---|---|
| LLM 数学能力天花板 | 从"拼凑已知知识"提升到"产出实质原创" | AI 将成为研究工具而非玩具 | 关注 LLM 在 Code/Agent 场景中的推理能力提升 |
| 科研生产力 | 一小时内完成人类数学家数周的工作 | 多智能体协作研究成为可能 | 关注 Claude Code / ChatGPT 在代码推理中的潜力 |
| 学术共识 | 怀疑派声音正在减弱 | AI 在专业领域的可信度快速提升 | 将 AI Agent 纳入日常工作流 |
| 内容生产 | AI 解决复杂逻辑问题的能力增强 | 自动化内容生产方式更可靠 | 用 AI Agent 解决更复杂的内容编排任务 |
对 AI Agent 工作流的启示
虽然这项突破发生在纯数学领域,但它对 AI Agent 和自动化工作流的直接影响不可忽视:
- 推理深度:能解决博士级数学题的模型,在执行复杂多步任务时更可靠
- 错误率降低:数学证明要求零错误,这预示着 AI Agent 在代码生成和数据分析中的准确率进一步提升
- 长链推理:一小时持续推理意味着上下文窗口和注意力机制的显著进步
对自动化工作流来说,这意味着用 OpenAI 的模型配合 n8n 或 Claude Code 搭建的内容生产管线,将在逻辑一致性、步骤完整性和输出质量上获得质的提升。
相关延伸资料
工具词条
正文中自然出现以下工具,平台侧会自动匹配已维护 tools 库以触发工具悬浮卡:OpenAI、ChatGPT、Claude Code、n8n
内链引导
- 对 AI Agent 工作流设计感兴趣?看:AI Agent 驱动内容自动化:n8n MCP 从零搭建指南
- 想用 Claude Code 实践前沿 AI 生产力?看:Claude Code 48小时创业:一人+29美元月费,3个月做到月入$9,000