ProgramBench 基准测试发布：最强 AI 模型也无法从零重建程序

Meta 超级智能实验室联合斯坦福和哈佛大学发布 ProgramBench 基准测试，要求 AI 模型从二进制文件重建完整代码库。测试结果显示，包括 Claude Opus 4.7 和 GPT 5.4 在内的所有顶级模型的解决率均为 0%，揭示了当前 AI 编程能力的根本局限。

核心结论

2026 年 5 月 7 日，Meta 超级智能实验室（Superintelligence Labs）联合斯坦福大学和哈佛大学发布了一个全新的 AI 编程基准测试——ProgramBench。该测试要求 AI 代理仅根据编译后的二进制文件和文档，从零开始重建完整代码库。结果令人震惊：包括 Claude Opus 4.7、GPT 5.4、Gemini 3.1 Pro 在内的所有顶级 AI 模型，解决率均为 0%。

关键要点

发布时间：2026-05-07
发布方：Meta 超级智能实验室 + 斯坦福大学 + 哈佛大学
核心发现：200 个任务中，所有模型解决率 0%
最佳成绩：Claude Opus 4.7 仅 "几乎解决" 3.0% 的测试
对 AI 工具用户的意义：AI 编码远未达到替代人类开发者的水平

背景：什么是 ProgramBench？

ProgramBench 是由原 SWE-bench 团队（John Yang、Kilian Lieret 等）开发的全新 AI 编程基准测试。与现有基准不同，ProgramBench 不测试"修复 bug"或"添加功能"，而是测试 AI 在完全没有源代码参考的情况下，能否通过逆向工程重建整个程序。

每个测试任务中，AI 代理接收一个可执行文件（binary）及其文档，然后必须重写实现该可执行文件的完整代码库。AI 看不到任何原始源代码，也不能反编译二进制文件——它只能通过运行程序、观察输出来推断代码逻辑。

SEO 关键词：AI 编程基准测试、ProgramBench、AI 代码生成能力评估、LLM 逆向工程

关键发现：200 个任务，0% 解决率

ProgramBench 使用 mini-SWE-agent 框架对所有主流 AI 模型进行了评测，以下是完整排行榜：

排名	模型	解决率	"几乎解决"率
1	Claude Opus 4.7	0%	3.0%
2	Claude Opus 4.6	0%	2.5%
3	Claude Sonnet 4.6	0%	1.0%
4	GPT 5.4	0%	0.0%
5	Gemini 3.1 Pro	0%	0.0%
6	Gemini 3 Flash	0%	0.0%
7	Claude Haiku 4.5	0%	0.0%
8	GPT 5.4 mini	0%	0.0%
9	GPT 5 mini	0%	0.0%

数据来源：ProgramBench 官网 | 论文：arXiv:2605.03546

AI模型排行榜对比图

这意味着什么？

ProgramBench 的 0% 解决率揭示了当前 AI 编程能力的根本性局限：

1. AI 擅长修改，不擅长创造 现有的 AI 编程工具（如 Claude Code、Cursor、Copilot）在日常编码中表现优秀，通常能解决 30-50% 的 issue。但 ProgramBench 证明，它们在面对"从零开始"的编程任务时几乎完全失灵。这就像一个人虽然能帮你修改文章中的错别字，但写不出一篇全新的论文。

2. 逆向工程仍是人类的领地 从二进制文件推断代码逻辑，需要理解程序的整体架构、数据流和业务逻辑——这些仍然是人类程序员的强项。AI 在微观层面的代码补全能力很强，但在宏观的程序重构上严重不足。

3. "几乎解决" 3% 暗示进步方向 Claude Opus 4.7 在 3% 的任务中通过了 95% 以上的测试，这是一个微弱但存在的信号。随着推理能力的提升，AI 最终可能跨越这个门槛。

对 AI 自动化工作流的启示

对于使用 AI 工具进行自动化内容生产和编程的用户来说，ProgramBench 有几点重要启示：

不要高估 AI 的"独立思考"能力 — AI 擅长在已有框架内工作，但不擅长从零构建
人机协作仍然是最优策略 — 让 AI 负责代码补全和测试，人类负责架构设计
Agentic 架构需要更完善的上下文 — 如 Simon Willison 在最近的讨论中所说，vibe coding 和 agentic engineering 正在趋同，但距离真智能还有距离
AI 工具的定位是"超级辅助"而非"替代者" — 这是目前最务实的使用心态

工具词条

正文中出现的工具平台：Claude Code、OpenAI、ChatGPT、Gemini、Copilot、Cursor

内链引导

想了解 AI 编程工具的实际用法？看：AI Agent 工具实操教程：从安装到自动化工作流
真实案例：有人用 Claude Code 48 小时从零创业做到月入 $9,000，看完整复盘

下一步行动

试用 ProgramBench 测试集，评估你自己的 AI 编程工作流
关注 SWE-bench 团队的后续工作——他们在 agentic 编程领域的研究处于前沿
订阅 waytoclawearn.com 获取更多 AI 工具评测与自动化教程