Forge 开源发布：护栏系统让 8B 本地模型在 Agent 任务中从 53% 跃升至 99%

德州仪器 AI 总监 Antoine Zambelli 开源了 Forge，一个面向自托管 LLM 的工具调用可靠性层。通过救援解析、重试提示、步骤强制等护栏机制，配合 VRAM 感知的上下文管理，将 8B 本地模型在复杂 Agent 工作流中的成功率从约 53% 提升至 99%，并附有完整的 26 场景评测套件。

核心结论

德州仪器 AI 总监 Antoine Zambelli 近期开源了 Forge，一个面向自托管 LLM 的工具调用可靠性层，能够将 8B 参数的本地模型在复杂多步 Agent 工作流中的成功率从约 53% 提升至 99%，同时不改变模型本身。

关键要点

发布时间：2026 年 5 月 19 日
影响对象：AI Agent 开发者、自动化工作流构建者、本地模型部署团队
核心变化：通过轻量级护栏层（Guardrails）而非模型微调，解决了本地小模型在 Agent 任务中"一步错步步错"的累积错误问题
开源协议：MIT，支持 Ollama、llama-server、Anthropic 等多种后端

背景：本地 Agent 的累积误差困境

在 AI Agent 自动化领域，一个常见的认知陷阱是"90% 的单步准确率已经不错了"。但现实是，一个 5 步工作流中，0.9^5 ≈ 0.59，即整体成功率仅 59%。如果涉及工具调用（Tool Calling），这个数字可能更低——许多 8B 级模型在多步工具调用的实际测试中只有 53% 左右的成功率。

这正是 Forge 试图解决的问题：不换模型，改系统。

Zambelli 在其论文中指出，小模型（~8B）在 Agent 任务中的主要瓶颈不是推理能力，而是工具调用的可靠性——模型有时不按格式输出 JSON、有时跳过必要步骤、有时在上下文超限后失忆。这些问题都可以通过系统级的护栏机制来弥补，而不需要蒸馏或微调。

Forge 的三种使用模式

Forge 提供三种递增的集成方式，按需选择：

模式	适用场景	集成难度	控制力度
WorkflowRunner	从零构建 Agent 工作流	低	高（全生命周期管理）
护栏中间件	接入现有编排框架	中	中（仅加固关键环节）
代理服务器	零改代码透明接入	最低	受限于客户端能力

代理服务器模式最有趣

Forge 的代理服务器是其最巧妙的创新：以 OpenAI 兼容的代理服务器运行，任何支持 OpenAI API 的客户端（OpenClaw、Continue、aider 等）只需将 API base URL 改为 http://localhost:8081/v1，即可自动获得护栏保护。客户端完全不知道背后有护栏层——它以为自己正在跟一个更聪明的模型对话。

代理服务器会自动注入一个合成的 respond 工具，强制模型保持"工具调用模式"而不是输出纯文本。这对于 8B 小模型至关重要——它们无法可靠地在纯文本和工具调用之间自主切换。

26 场景评测：量化提升

Forge 附带一个完整的评测套件，包含 26 个多步工具调用场景：

OG-18 基线层：18 个标准场景，测试基本的工具调用可靠性
高级推理层：8 个高难度场景，用于顶尖配置的性能分离

当前最佳配置（Ministral-3 8B Instruct Q8 + llama-server）在完整套件中得分 86.5%，在最高难度层得分 76%——而未经护栏保护的同模型仅约 53%。

Forge 评测架构与场景分布

为何对自动化从业者如此重要

Forge 的核心理念——用系统设计弥补模型能力——对 AI 自动化从业者有直接的启示：

降低成本：本地 8B 模型 + 护栏 ≈ 云端 70B+ 的可靠性，但推理成本降低 90% 以上
摆脱 API 依赖：无需支付 OpenAI/Anthropic 的 API 费用即可获得接近前沿模型的 Agent 可靠性
透明审计：护栏层可记录每一步的纠正与重试，为合规场景提供完整审计轨迹
组合友好：SlotWorker 机制允许多个专业 Agent 共享同一 GPU 槽位，带优先级抢占

这与我们之前报道过的 Statewright（状态机护栏）思路一致，但 Forge 更专注于工具调用的可靠性层面。

实操建议：如何快速试用

对于想要尝试自动化的读者，Forge 提供了最低成本的入门路径：

terminal


# 安装
pip install forge-guardrails

# 启动代理服务器（与已有的 llama-server 配合）
python -m forge.proxy --backend-url http://localhost:8080 --port 8081

# 在 OpenClaw 或任何 OpenAI 客户端中将 API base 设为

# http://localhost:8081/v1

无需修改一行现有的 Agent 代码——只需改 API 地址即可获得护栏保护。