WayToClawEarn
高影响Hacker News

ProgramBench 基准测试发布:最强 AI 模型也无法从零重建程序

Meta 超级智能实验室联合斯坦福和哈佛大学发布 ProgramBench 基准测试,要求 AI 模型从二进制文件重建完整代码库。测试结果显示,包括 Claude Opus 4.7 和 GPT 5.4 在内的所有顶级模型的解决率均为 0%,揭示了当前 AI 编程能力的根本局限。

2026年5月7日 · 阅读约 5 分钟

核心结论

2026 年 5 月 7 日,Meta 超级智能实验室(Superintelligence Labs)联合斯坦福大学和哈佛大学发布了一个全新的 AI 编程基准测试——ProgramBench。该测试要求 AI 代理仅根据编译后的二进制文件和文档,从零开始重建完整代码库。结果令人震惊:包括 Claude Opus 4.7、GPT 5.4、Gemini 3.1 Pro 在内的所有顶级 AI 模型,解决率均为 0%

关键要点

  • 发布时间:2026-05-07
  • 发布方:Meta 超级智能实验室 + 斯坦福大学 + 哈佛大学
  • 核心发现:200 个任务中,所有模型解决率 0%
  • 最佳成绩:Claude Opus 4.7 仅 "几乎解决" 3.0% 的测试
  • 对 AI 工具用户的意义:AI 编码远未达到替代人类开发者的水平

背景:什么是 ProgramBench?

ProgramBench 是由原 SWE-bench 团队(John Yang、Kilian Lieret 等)开发的全新 AI 编程基准测试。与现有基准不同,ProgramBench 不测试"修复 bug"或"添加功能",而是测试 AI 在完全没有源代码参考的情况下,能否通过逆向工程重建整个程序。

每个测试任务中,AI 代理接收一个可执行文件(binary)及其文档,然后必须重写实现该可执行文件的完整代码库。AI 看不到任何原始源代码,也不能反编译二进制文件——它只能通过运行程序、观察输出来推断代码逻辑。

SEO 关键词:AI 编程基准测试、ProgramBench、AI 代码生成能力评估、LLM 逆向工程

关键发现:200 个任务,0% 解决率

ProgramBench 使用 mini-SWE-agent 框架对所有主流 AI 模型进行了评测,以下是完整排行榜:

排名模型解决率"几乎解决"率
1Claude Opus 4.70%3.0%
2Claude Opus 4.60%2.5%
3Claude Sonnet 4.60%1.0%
4GPT 5.40%0.0%
5Gemini 3.1 Pro0%0.0%
6Gemini 3 Flash0%0.0%
7Claude Haiku 4.50%0.0%
8GPT 5.4 mini0%0.0%
9GPT 5 mini0%0.0%

数据来源:ProgramBench 官网 | 论文:arXiv:2605.03546

AI模型排行榜对比图

这意味着什么?

ProgramBench 的 0% 解决率揭示了当前 AI 编程能力的根本性局限

1. AI 擅长修改,不擅长创造 现有的 AI 编程工具(如 Claude Code、Cursor、Copilot)在日常编码中表现优秀,通常能解决 30-50% 的 issue。但 ProgramBench 证明,它们在面对"从零开始"的编程任务时几乎完全失灵。这就像一个人虽然能帮你修改文章中的错别字,但写不出一篇全新的论文。

2. 逆向工程仍是人类的领地 从二进制文件推断代码逻辑,需要理解程序的整体架构、数据流和业务逻辑——这些仍然是人类程序员的强项。AI 在微观层面的代码补全能力很强,但在宏观的程序重构上严重不足。

3. "几乎解决" 3% 暗示进步方向 Claude Opus 4.7 在 3% 的任务中通过了 95% 以上的测试,这是一个微弱但存在的信号。随着推理能力的提升,AI 最终可能跨越这个门槛。

对 AI 自动化工作流的启示

对于使用 AI 工具进行自动化内容生产和编程的用户来说,ProgramBench 有几点重要启示:

  • 不要高估 AI 的"独立思考"能力 — AI 擅长在已有框架内工作,但不擅长从零构建
  • 人机协作仍然是最优策略 — 让 AI 负责代码补全和测试,人类负责架构设计
  • Agentic 架构需要更完善的上下文 — 如 Simon Willison 在最近的讨论中所说,vibe coding 和 agentic engineering 正在趋同,但距离真智能还有距离
  • AI 工具的定位是"超级辅助"而非"替代者" — 这是目前最务实的使用心态

相关延伸资料

工具词条

正文中出现的工具平台:Claude CodeOpenAIChatGPTGeminiCopilotCursor

内链引导

下一步行动

  • 试用 ProgramBench 测试集,评估你自己的 AI 编程工作流
  • 关注 SWE-bench 团队的后续工作——他们在 agentic 编程领域的研究处于前沿
  • 订阅 waytoclawearn.com 获取更多 AI 工具评测与自动化教程
免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。