ProgramBench 基准测试发布:最强 AI 模型也无法从零重建程序
Meta 超级智能实验室联合斯坦福和哈佛大学发布 ProgramBench 基准测试,要求 AI 模型从二进制文件重建完整代码库。测试结果显示,包括 Claude Opus 4.7 和 GPT 5.4 在内的所有顶级模型的解决率均为 0%,揭示了当前 AI 编程能力的根本局限。
2026年5月7日 · 阅读约 5 分钟
核心结论
2026 年 5 月 7 日,Meta 超级智能实验室(Superintelligence Labs)联合斯坦福大学和哈佛大学发布了一个全新的 AI 编程基准测试——ProgramBench。该测试要求 AI 代理仅根据编译后的二进制文件和文档,从零开始重建完整代码库。结果令人震惊:包括 Claude Opus 4.7、GPT 5.4、Gemini 3.1 Pro 在内的所有顶级 AI 模型,解决率均为 0%。
关键要点
- 发布时间:2026-05-07
- 发布方:Meta 超级智能实验室 + 斯坦福大学 + 哈佛大学
- 核心发现:200 个任务中,所有模型解决率 0%
- 最佳成绩:Claude Opus 4.7 仅 "几乎解决" 3.0% 的测试
- 对 AI 工具用户的意义:AI 编码远未达到替代人类开发者的水平
背景:什么是 ProgramBench?
ProgramBench 是由原 SWE-bench 团队(John Yang、Kilian Lieret 等)开发的全新 AI 编程基准测试。与现有基准不同,ProgramBench 不测试"修复 bug"或"添加功能",而是测试 AI 在完全没有源代码参考的情况下,能否通过逆向工程重建整个程序。
每个测试任务中,AI 代理接收一个可执行文件(binary)及其文档,然后必须重写实现该可执行文件的完整代码库。AI 看不到任何原始源代码,也不能反编译二进制文件——它只能通过运行程序、观察输出来推断代码逻辑。
SEO 关键词:AI 编程基准测试、ProgramBench、AI 代码生成能力评估、LLM 逆向工程
关键发现:200 个任务,0% 解决率
ProgramBench 使用 mini-SWE-agent 框架对所有主流 AI 模型进行了评测,以下是完整排行榜:
| 排名 | 模型 | 解决率 | "几乎解决"率 |
|---|---|---|---|
| 1 | Claude Opus 4.7 | 0% | 3.0% |
| 2 | Claude Opus 4.6 | 0% | 2.5% |
| 3 | Claude Sonnet 4.6 | 0% | 1.0% |
| 4 | GPT 5.4 | 0% | 0.0% |
| 5 | Gemini 3.1 Pro | 0% | 0.0% |
| 6 | Gemini 3 Flash | 0% | 0.0% |
| 7 | Claude Haiku 4.5 | 0% | 0.0% |
| 8 | GPT 5.4 mini | 0% | 0.0% |
| 9 | GPT 5 mini | 0% | 0.0% |
数据来源:ProgramBench 官网 | 论文:arXiv:2605.03546
这意味着什么?
ProgramBench 的 0% 解决率揭示了当前 AI 编程能力的根本性局限:
1. AI 擅长修改,不擅长创造 现有的 AI 编程工具(如 Claude Code、Cursor、Copilot)在日常编码中表现优秀,通常能解决 30-50% 的 issue。但 ProgramBench 证明,它们在面对"从零开始"的编程任务时几乎完全失灵。这就像一个人虽然能帮你修改文章中的错别字,但写不出一篇全新的论文。
2. 逆向工程仍是人类的领地 从二进制文件推断代码逻辑,需要理解程序的整体架构、数据流和业务逻辑——这些仍然是人类程序员的强项。AI 在微观层面的代码补全能力很强,但在宏观的程序重构上严重不足。
3. "几乎解决" 3% 暗示进步方向 Claude Opus 4.7 在 3% 的任务中通过了 95% 以上的测试,这是一个微弱但存在的信号。随着推理能力的提升,AI 最终可能跨越这个门槛。
对 AI 自动化工作流的启示
对于使用 AI 工具进行自动化内容生产和编程的用户来说,ProgramBench 有几点重要启示:
- 不要高估 AI 的"独立思考"能力 — AI 擅长在已有框架内工作,但不擅长从零构建
- 人机协作仍然是最优策略 — 让 AI 负责代码补全和测试,人类负责架构设计
- Agentic 架构需要更完善的上下文 — 如 Simon Willison 在最近的讨论中所说,vibe coding 和 agentic engineering 正在趋同,但距离真智能还有距离
- AI 工具的定位是"超级辅助"而非"替代者" — 这是目前最务实的使用心态
相关延伸资料
工具词条
正文中出现的工具平台:Claude Code、OpenAI、ChatGPT、Gemini、Copilot、Cursor
内链引导
- 想了解 AI 编程工具的实际用法?看:AI Agent 工具实操教程:从安装到自动化工作流
- 真实案例:有人用 Claude Code 48 小时从零创业做到月入 $9,000,看完整复盘
下一步行动
- 试用 ProgramBench 测试集,评估你自己的 AI 编程工作流
- 关注 SWE-bench 团队的后续工作——他们在 agentic 编程领域的研究处于前沿
- 订阅 waytoclawearn.com 获取更多 AI 工具评测与自动化教程