开源 26M 参数模型 Needle 发布:将 Gemini 工具调用蒸馏到消费级设备
Cactus 团队开源了 Needle,一个仅 26M 参数的工具调用模型。它通过 Simple Attention Networks 架构(无 FFN),在消费级设备上实现 6000 tok/s 的预填充速度和 1200 tok/s 的解码速度,在单次函数调用任务中击败了 FunctionGemma-270M、Qwen-0.6B 等更大模型。
2026年5月13日 · 阅读约 5 分钟
核心结论
2026 年 5 月 13 日,Cactus 团队在 Hacker News 上发布了 Needle——一个仅有 26M 参数的开源工具调用(function calling)模型。它通过消除传统 Transformer 中的 FFN(前馈网络)层,证明了工具调用本质上不是推理任务,而是检索-组装任务。这意味着运行在手机、手表、智能眼镜上的 AI Agent 不再需要大模型。
关键要点
- 发布时间:2026-05-13(Hacker News 首秀)
- 模型规模:26M 参数,仅注意力层 + 门控机制,无 MLP
- 性能数据:消费级设备上 6000 tok/s 预填充、1200 tok/s 解码
- 训练成本:200B tokens 预训练(27 小时 on 16x TPU v6e)+ 2B tokens 后训练(45 分钟)
- 开源授权:MIT 协议,权重在 Hugging Face 可下载
背景:为什么 Agent 模型需要小模型?
当前 AI Agent 生态面临一个根本矛盾:Agent 体验需要实时响应,但大模型太重,无法运行在端侧设备上。
OpenAI 的 GPT-4o、Anthropic 的 Claude Opus 等模型虽然工具调用能力强,但推理成本高、延迟大。而小模型(<1B 参数)在工具调用任务上的表现一直不理想。
Cactus 团队的洞察是:工具调用 = 检索 + 组装,不是推理。模型不需要记住大量世界知识(那是 FFN 的职责),它只需要根据用户意图匹配工具名称、提取参数、输出 JSON。Cross-attention 是做这件事的正确原语。
Needle 的关键创新:Simple Attention Networks
Needle 的核心架构创新是 Simple Attention Networks (SAN):
| 维度 | 传统 Transformer | Needle (SAN) |
|---|---|---|
| 架构组件 | Attention + FFN (MLP) | 仅 Attention + Gating |
| 参数效率 | FFN 占 2/3 参数 | 无 FFN,全部参数用于注意力 |
| 推理速度 | 受 FFN 计算瓶颈限制 | 极高吞吐(6000 tok/s 预填充) |
| 适用场景 | 通用语言理解 | 工具调用、RAG、检索型任务 |
| 端侧部署 | 困难(模型通常 >7B) | 轻松(26M 参数,MB 级大小) |
这个发现具有普适性:任何依赖外部结构化知识的任务(工具调用、RAG、检索增强生成)都不需要模型在 FFN 中"记住"事实。如果事实在输入中提供,模型只需要学会匹配和组装。
性能对比
在单次函数调用基准测试中,Needle(26M)的表现:
| 模型 | 参数 | Needle 对比 |
|---|---|---|
| Needle | 26M | 基准 |
| FunctionGemma | 270M | ✅ Needle 胜出 |
| Qwen-2.5 | 0.6B | ✅ Needle 胜出 |
| Granite-3.0 | 350M | ✅ Needle 胜出 |
| LFM-2.5 | 350M | ✅ Needle 胜出 |
Needle 以 10-20 倍更少的参数量击败了同类专用模型。
训练过程:低成本+合成数据
Needle 的训练流程值得关注,因为它展示了极低的训练成本:
- 预训练阶段:在 200B tokens 上预训练,使用 16 块 TPU v6e,耗时 27 小时
- 后训练阶段:在 2B tokens 的合成函数调用数据上微调,仅 45 分钟
- 数据合成:通过 Gemini 生成了涵盖 15 种工具类别(定时器、消息、导航、智能家居等)的训练数据
整个训练流程可以在 不到 30 小时内完成,这对于想定制自己专用工具调用模型的团队来说门槛极低。
如何在本地运行 Needle
Needle 已经发布在 GitHub 和 Hugging Face 上,可以直接在你的 Mac/PC 上运行和微调:
# 克隆仓库
git clone https://github.com/cactus-compute/needle
cd needle
# 安装依赖
pip install -r requirements.txt
# 运行推理
python run.py --model Cactus-Compute/needle你也可以在 Cactus 团队提供的 Playground 中直接体验。
Needle 对 AI 赚钱/自动化意味着什么
从 WayToClawEarn 读者的角度,Needle 的出现解锁了几个关键机会:
1. 端侧 Agent 成为现实
26M 参数意味着模型可以嵌入手机 App、浏览器插件、甚至智能手表。AI Agent 不再需要云端的 GPT-4o,一个 26M 模型就能处理大部分工具调用场景。这意味着:
- 更低的 API 成本(零 API 调用费)
- 更快的响应(无需网络往返)
- 更好的隐私(数据不出设备)
2. 自动化流水线降本
对于现有的 n8n / Make.com 自动化工作流,可以把 Needle 作为本地工具调度模块,处理工具选择、参数提取等任务——完全不消耗 OpenAI/Claude 的 API 额度。
3. 小团队独立部署
由于模型极度轻量,可以在 VPS 甚至 Raspberry Pi 上运行。对于想搭建小众 Agent 工具的个人开发者,这是一条极高性价比的路径。
工具词条
正文中自然出现的工具词条:Gemini、OpenAI、Claude、Claude Code、DeepSeek、n8n、Make.com、Hugging Face。
下一步行动:你可能感兴趣的内容
想用手上的 Mac 跑本地模型?看这篇教程:
想了解 AI Agent 工具怎么用?
真实案例:18 岁零基础用 AI Agent 造出了月入 $5,000 的 SaaS:
本文基于 Cactus 团队在 Hacker News 的开源发布(2026-05-13)和 GitHub 仓库内容撰写。