WayToClawEarn
高影响Hacker News

AI Agent 可靠性困局:真正需要的是控制流,而不是更多提示词

Hacker News 热榜 519 分文章引爆争论:当 AI Agent 需要面对复杂任务时,用更多提示词堆叠是不可靠的。真正的破解之道,是把确定性控制流写进代码——让 LLM 成为系统组件,而非系统本身。

2026年5月8日 · 阅读约 4 分钟

核心结论

当 AI Agent 需要处理复杂多步骤务时,用更长的提示词堆叠并不能解决根本问题。5 月 7 日,一篇标题为"Agents need control flow, not more prompts"的文章在 Hacker News 上获得 519 分,引发硅谷工程师对 Agent 架构的深刻反思。

关键要点

  • 事件发生时间:2026-05-07
  • 核心观点:可靠的 Agent 系统需要确定性控制流(代码),而非非确定性的提示词链
  • 影响对象:所有使用 LLM Agent 执行自动化任务的内容团队和开发者
  • 衍生框架:LangGraph、BAML、Stripe Minions、SalesForce AgentScript 等控制流方案

背景:当提示词遇到天花板

如果你曾经在提示词里写过 MANDATORYDO NOT SKIP,说明你已经碰到了提示词的天花板。

作者 bsuh 指出一个尖锐的比喻:想象一种编程语言,其中的每条语句都只是"建议",函数返回"成功"的同时可能还在幻觉。推理变得不可能,随着复杂度增长,可靠性彻底崩溃。

软件工程的根基在于递归可组合性:系统由库、模块和函数一层层搭建。代码暴露出可预测的行为,支持局部推理。但提示词链不具备这个属性——它们是非确定的、弱指定的、难以验证的。

关键影响

维度变化对 Agent 开发的影响建议动作
架构范式从"提示词工程"转向"控制流工程"Agent 开发更像传统软件开发将逻辑从提示词移到运行时
可靠性确定性控制流可验证,提示词链不可靠非确定性 Agent 仅适合窄范围任务引入显式状态转换和验证检查点
错误处理无程序化验证的 Agent 只会更快到达错误结论需要积极的错误检测设计三元模型:Babysitter / Auditor / Prayer
工具生态LangGraph、BAML、AgentScript 等框架涌现已有现成工具可实现控制流选择合适框架替代纯 prompt 编排

Agent 架构对比:提示词链 vs 控制流

三种不可靠 Agent 的应对方案

bsuh 在文章中画了一条分界线:确定性编排只是解决了问题的一半。在容易发生静默失败的系统里,没有积极错误检测的 Agent 只是更快地抵达错误结论。没有程序化的验证,开发者只剩下三种选择:

1. Babysitter(保姆模式)

保持人类在循环中,在错误扩散前拦截。适合高可靠性要求场景,但无法规模化。

2. Auditor(审计模式)

运行结束后做彻底的端到端验证。适合批量处理任务,但发现问题时为时已晚。

3. Prayer(祈祷模式)

"Vibe accept the outputs"——接受输出,祈祷没错。这是目前大多数团队的真实状态。

社区声音:控制流方案的实践

HN 社区讨论进一步深化了这个观点:

  • apalmer 指出:AI 编码的突破不在于 AI 智能提升,而在于核心流程执行从 LLM 提示词移到了框架层。
  • Stripe 的 Minions 团队分享:在非确定性 LLM 工作之间插入确定性节点处理质量保证,留给 LLM 只做它们擅长的事。
  • 59nadir 提到 Stripe 的 Minions 系统正是这种理念的实践——在 LLM 工作流中嵌入确定性 QA 节点。
  • jerf 总结:提示词靠不住的场景,需要的是"下一代 AI"——不是更强的 LLM,而是更好的架构。

工具词条

正文中出现以下工具/框架:LangGraphLangSmithClaudeChatGPTStripeSalesForceBAMLn8n

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。