WayToClawEarn
高影响Hacker News

AI 编程 Agent 危机:George Hotz 痛批"永恒废料九月",学术论文证实结构约束衰减 30%

George Hotz 发表长文痛批 AI 编程 Agent"根本不会写代码",称其正在制造"永恒废料九月";同日,arXiv 论文《Constraint Decay》以 80 个后端项目证实:LLM Agent 在结构约束堆积时性能暴跌 30 分,最弱的配置几乎归零。两篇同时登顶 HN,揭示 AI 编码从"能跑就行"到"生产可用"之间存在巨大鸿沟。

2026年5月25日 · 阅读约 6 分钟

核心结论

2026 年 5 月 24-25 日,两条新闻同时冲击 Hacker News 榜首,共同指向一个被热炒已久的疑问:AI 编程 Agent 到底能不能写真实的生产代码?

  • **George Hotz(tinygrad 创始人)**发表《The Eternal Sloptember》长文,称 AI 编程 Agent"永远不会真的会写代码",它们只是越来越擅长制造难以检测的"废料"。
  • 同日,**arXiv 论文《Constraint Decay》**系统测试了 80 个后端生成任务,证明当结构性约束(ORM、数据库映射、框架规范)叠加时,LLM Agent 的通过率平均下降 30 个百分点,弱势配置直接归零。

两条新闻一条是经验之谈、一条是实证研究,但结论惊人一致:AI 能帮你快速跑通原型,但离可靠的"生产级程序员"还有很远。

关键要点

  • George Hotz 断言:采用 AI Agent 开发将是软件工程史上代价最大的错误
  • 学术研究证实:Agent 在完整约束下的表现比"随便写"下降 30+ 分
  • 框架敏感度巨大:Flask 任务接近满分,Django/FastAPI 任务暴跌至零
  • 最大痛点:数据层缺陷(错误查询组合、ORM 运行时违规)占错误的 60%+

背景:两股力量同时指向同一结论

George Hotz:"永恒废料九月

George Hotz 以自己过去 6 个月使用 AI 编程 Agent 的实际经历开篇。他在 tinygrad 中尝试用 Agent 写代码,也尝试过用 Agent 反向工程 USB 芯片。每一次,Agent 都在"原型阶段"表现惊艳——快速生成大量代码——但到了细节打磨阶段,就变成一个"老虎机拉杆",你不断拉,它偶尔给一次正确结果,但永远不彻底。

他特别警告大型组织的风险:高绩效程序员能用经验判断 AI 输出是否可靠,但底层员工缺乏这种自检能力。Agent 让底层员工的"产出"翻了 10 倍,但代码质量急剧下滑——大量的"废料"代码正在被合入生产环境,而这些废料越来越难以识别。

"当你看到一件人工制品时,你会不自觉地假设它的创作者拥有(基本上)正常的人类心智状态。这个假设不再成立。"

学术论文《Constraint Decay》

由 Francesco Dente、Dario Satriani、Paolo Papotti 合著的论文,设计了一套严谨的双重评估体系:80 个全新后端生成任务 + 20 个功能实现任务,覆盖 8 个 Web 框架。每项任务先用"松规格"测试(只说功能要求),再用"完整规格"测试(加上 ORM、数据库、架构约束)。

结果触目惊心:

配置类型松规格通过率完整规格通过率下降幅度
最强配置~85%~55%-30 分
中等配置~60%~25%-35 分
最弱配置~30%~3%-27 分

论文将这个现象命名为**"约束衰减"(Constraint Decay)**——随着结构约束叠加,Agent 的性能呈系统性下滑,而非线性递减。

关键影响:对开发者和企业的实际含义

维度变化对我们意味着什么建议动作
代码质量Agent 生成的代码在约束下质量骤降直接信任 Agent 生成的后端代码风险极高必须叠加严格的质量门和静态验证
框架选择Flask 任务接近满分,Django 几乎归零选对框架可能比选对模型更重要优先使用显式、低魔力的框架
开发效率原型阶段效率提升 10 倍,但修复阶段效率归零"先快速生成再慢慢修"的策略可能适得其反分阶段管理 Agent 产出的检查标准
团队管理大型组织底部产出翻倍但质量下滑产出指标可能掩盖代码质量的系统性崩塌引入约束验证作为质量门,而非信任开发者判断
工具生态所有主流 Agent 框架都受约束衰减影响当前没有 Agent 能真正做到"生产级"关注人机协作模式,而非"完全自动化"

适配建议

  1. 质量门必须前置:不要让 Agent 直接生成最终代码,先让它生成带约束的骨架,再由开发者在骨架中补完关键逻辑。这种"人补 AI"模式比"AI 写、人改"更节省时间。

  2. 选择低魔力框架:如果必须用 Agent 生成后端代码,优先选择 Flask 这类显式框架,远离 Django/Rails 这类约定优于配置的高魔力框架。框架选择对 Agent 成功率的影响可能大于模型选择。

  3. 数据层人工审查:论文指出 ORM 运行时违规是最大的错误来源。所有涉及数据库查询和映射的 Agent 产出必须人工逐行审查。

  4. 别把 Agent 当程序员:George Hotz 的建议很直接——Agent 是更智能的 Google,是快速原型工具,但不是你的同事。用它探索方案,然后用你的判断决定是否采用。

任务清单

  • 审视你当前流水线:Agent 产出的代码经过了哪些质量门?
  • 检查你的框架选择:Agent 在你当前框架下的表现如何?
  • 建立数据层人工审查机制,尤其是 ORM 相关代码
  • 给团队建立"何时信任 Agent、何时必须人审"的决策树

数据流图 — 展示 AI Agent 生成代码后经质量门才到生产

参考来源

工具词条

本文涉及以下工具:Claude CodeOpenAIChatGPTDeepSeekn8nOpenClaw。这些工具本身不是问题——问题在于我们如何理解它们的边界。好的工具使用者知道什么时候信任输出,什么时候保持怀疑。

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。