WayToClawEarn
高影响Gowers's Weblog + Hacker News

ChatGPT 5.5 Pro 一小时搞定博士级数学题:菲尔兹奖得主亲测

菲尔兹奖得主 Timothy Gowers 亲测 ChatGPT 5.5 Pro:一小时内独立完成博士级数学研究,彻底改写了对 AI 数学能力的评价。

2026年5月9日 · 阅读约 5 分钟

核心结论

2026年5月8日,菲尔兹奖得主、剑桥大学教授 Timothy Gowers 公开分享了他对 ChatGPT 5.5 Pro 的实测体验:这款模型仅用约一小时就完成了一项博士级数学研究,解决了数论中一个未被完全描述的组合问题,全程几乎不需要 Gowers 本人进行任何实质性数学输入。

维度数据
测试时间2026年5月8日
测试者Timothy Gowers(菲尔兹奖得主,1998)
模型ChatGPT 5.5 Pro
耗时约1小时
解决的问题加性数论中的 sumset 大小可能性问题
此前 LLM 对同领域判断曾有疑虑,测试后大幅上调评估

关键要点

  • Gowers 此前对 LLM 数学能力持谨慎态度,本次测试后宣布"大幅上调评估"
  • 模型解决的是 Nathanson 论文中提出的、人类数学家尚未完整描述的问题
  • AI 不仅找到解决方案,还能给出清晰的数学论证过程
  • 这标志着 AI 从"拼凑已知知识"到"产出实质原创数学"的跨越

背景:从怀疑到震惊

Timothy Gowers 是剑桥大学纯数学与数理统计学系的教授,1998年因将泛函分析与组合学联系起来的工作获得菲尔兹奖。长期以来,他对 LLM 的数学能力持审慎甚至怀疑态度。

Gowers 之前观察到,LLM 能解决的"开放问题"往往有现成答案藏在文献中,或者非常容易从已知结果推导。但他在博客中坦言:

"笑声越来越小了。"

他注意到,数学家社群已经开始意识到——如果一个开放问题存在某个"人类还没来得及注意到"的简单论证,LLM 有很大概率能发现它。反之,那些看似"聪明"的论证,追根溯源也常常只是把既有知识重新组合——而这正是大量人类数学工作的本质。

测试设计:Nathanson 的加性数论问题

Gowers 选择了 Mel Nathanson 的一篇论文 《Diversity, Equity and Inclusion for Problems in Additive Number Theory》 作为测试素材。这篇论文提出了一系列关于 sumset(求和集)的开放问题。

问题的数学本质

如果 $A$ 是一个整数集合,那么它的 sumset 定义为 $A + A = {a + b : a, b \in A}$。对于正整数 $h$,$h$-fold sumset 记为 $hA$。

Nathanson 感兴趣的问题是:已知 $|A| = k$ 时,$|hA|$ 可能取哪些值?即定义集合 $\mathcal{M}(h, k) = {|hA| : |A| = k}$,那么 $\mathcal{M}(h, k)$ 具体是什么?

当 $h = 2$ 时,答案是 $k$ 到 $2k-1$ 之间的所有整数——这是一个简单的习题结论。但是当 $h$ 更大时,$\mathcal{M}(h, k)$ 并不包含其最小值和最大值之间的所有数值,人类数学家目前还没有完整的描述。

正是这类问题,ChatGPT 5.5 Pro 只用了一个小时就给出了实质性的数学贡献。

Mathematical formula sumset

关键影响:从拼凑到原创

维度变化对我们的意义建议动作
LLM 数学能力天花板从"拼凑已知知识"提升到"产出实质原创"AI 将成为研究工具而非玩具关注 LLM 在 Code/Agent 场景中的推理能力提升
科研生产力一小时内完成人类数学家数周的工作多智能体协作研究成为可能关注 Claude Code / ChatGPT 在代码推理中的潜力
学术共识怀疑派声音正在减弱AI 在专业领域的可信度快速提升将 AI Agent 纳入日常工作流
内容生产AI 解决复杂逻辑问题的能力增强自动化内容生产方式更可靠用 AI Agent 解决更复杂的内容编排任务

对 AI Agent 工作流的启示

虽然这项突破发生在纯数学领域,但它对 AI Agent 和自动化工作流的直接影响不可忽视:

  1. 推理深度:能解决博士级数学题的模型,在执行复杂多步任务时更可靠
  2. 错误率降低:数学证明要求零错误,这预示着 AI Agent 在代码生成和数据分析中的准确率进一步提升
  3. 长链推理:一小时持续推理意味着上下文窗口和注意力机制的显著进步

对自动化工作流来说,这意味着用 OpenAI 的模型配合 n8nClaude Code 搭建的内容生产管线,将在逻辑一致性、步骤完整性和输出质量上获得质的提升。

相关延伸资料

工具词条

正文中自然出现以下工具,平台侧会自动匹配已维护 tools 库以触发工具悬浮卡:OpenAIChatGPTClaude Coden8n

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。