Needle 开源:26M 参数模型复现 Gemini 工具调用能力,可在消费级设备上运行
Cactus 团队开源的 Needle 仅用 26M 参数就实现了 Gemini 级别的函数调用(tool calling)能力,预训练 200B token 仅需 27 小时,推理速度在消费级设备上可达 6000 tok/s pref ill。其架构彻底去除了 FFN 层,仅靠 Attention + Gating 完成工具调用。
2026年5月13日 · 阅读约 5 分钟
核心结论
Cactus 团队开源了 Needle,一个仅 26M 参数 的简单注意力网络(Simple Attention Network),专门用于单次函数调用(single-shot function calling)。它从 Gemini 3.1 蒸馏而来,在消费级设备上运行速度达 6000 tok/s prefill / 1200 tok/s decode。核心发现:工具调用本质上是"检索+组装"任务,大模型的 FFN 参数在这一场景中纯属浪费。
关键要点
- 发布时间:2026 年 5 月 13 日
- 影响对象:AI Agent 开发者、边缘计算团队、端侧 AI 爱好者
- 核心变化:26M 参数模型在单次函数调用任务上超越 270M-600M 级别竞品(FunctionGemma、Qwen-0.6B、Granite-350M)
背景与触发事件
2026 年 5 月 13 日,Cactus 团队创始人 Henry 在 Hacker News 上正式发布了 Needle 项目。该项目源自对现有 AI Agent 生态的一个关键观察:端侧设备上缺少有效的工具调用模型,而大模型(7B+)在被蒸馏到端侧时,大部分参数在工具调用场景中并未被有效利用。
Needle 的完整训练过程极度高效:
- 预训练:16 块 TPU v6e、200B tokens、仅 27 小时
- 后训练:2B tokens 合成函数调用数据、仅 45 分钟
- 数据集通过 Gemini 自动合成,涵盖 15 种工具类别(定时器、消息、导航、智能家居等)
SEO:26M 参数、函数调用模型、端侧 AI、Gemini 蒸馏 GEO:TL;DR 式关键数据摘要,精确数字加分
关键影响(按维度)
| 维度 | 变化 | 对 AI Agent 开发者意味着什么 | 建议动作 |
|---|---|---|---|
| 模型大小 | 从 7B+ 降至 26M | 端侧设备终于可以原生运行工具调用 | 在测试环境试用 Needle playground |
| 推理速度 | 6000 tok/s prefill, 1200 tok/s decode | MacBook/手机即可实时处理工具调用 | 替换本地测试中的大模型方案 |
| 架构创新 | 完全去掉 FFN 层,仅 Attention + Gating | FFN 在检索类任务中是冗余的 | 评估自己 Agent 系统中 FFN 的 ROI |
| 训练成本 | 200B tokens / 27hrs / 16 TPU | 普通人也能复现端侧模型训练 | 用提供的微调接口定制自己的工具集 |
| 许可证 | MIT 开源 | 可商用、可修改 | 直接集成到现有流水线 |
架构亮点:Simple Attention Network
Needle 的架构非常独特:完全去掉了 FFN 层。整个模型只有 Self-Attention + Cross-Attention + Gating。设计直觉是:工具调用本质上是"根据用户查询匹配工具名称 → 提取参数值 → 输出 JSON",这是一个检索任务,不需要 FFN 的复杂特征变换。
模型配置:
- d=512, 8H/4KV, BPE=8192
- Encoder: 12 层 Self-Attention(无 FFN)
- Decoder: 8 层(Self-Attention + Cross-Attention + Gated Residual)
- 共享 Embedding + LM Head(tied weights)
适配建议
对于正在构建 AI Agent 工作流的开发者来说,Needle 提供了几个可立即落地的价值点:
- 替换本地测试模型:在 MacBook 上开发 AI Agent 时,用 Needle 替代 GPT-4/Gemini 进行工具调用测试,速度提升数十倍
- 端侧部署:对于手机、手表、IoT 设备上的 Agent,Needle 是当前最适配的工具调用方案
- 定制微调:Needle 的 playground UI 支持一键生成数据和微调,可以针对自己的工具集快速定制
- 架构启发:FFN 是推理任务的核心,但在检索任务中是冗余的 — 这个洞察可以应用到 RAG、工具调用、结构化数据提取等场景
快速上手
git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground
# 打开浏览器访问 http://127.0.0.1:7860与现有模型的对比
| 模型 | 参数量 | 单次函数调用准确率 | 运行设备 | 许可证 |
|---|---|---|---|---|
| Needle | 26M | 超越 270M-600M 竞品 | 手机/手表/眼镜/PC | MIT |
| FunctionGemma | 270M | 基准线 | 移动设备 | Gemma |
| Qwen-0.6B | 600M | 基准线 | 低端 PC | 开源 |
| Granite-350M | 350M | 基准线 | 移动设备 | Apache 2.0 |
| LFM2.5-350M | 350M | 基准线 | 移动设备 | 开源 |
注:Needle 在单次函数调用场景表现优异,但这些对比模型在对话式场景中容量更大、泛化能力更强。
相关延伸资料
- GitHub 仓库:cactus-compute/needle
- HuggingFace 权重:Cactus-Compute/needle
- Cactus 推理引擎:cactus-compute/cactus
工具词条(触发工具悬浮卡)
本项目中自然出现以下 AI 工具:Gemini(蒸馏来源)、Hugging Face(模型托管)、Claude Code、OpenClaw、n8n — 这些工具都是 AI Agent 工作流中的核心组件,平台侧会自动匹配已维护的 tools 库。
内链引导
- 想学本地运行 AI 模型?看:如何用 LM Studio 在 M4 Mac 上运行本地 AI 模型:30 分钟完整教程
- AI Agent 实战案例:OpenClaw AI Agent 生财记:5 天 500 万播放、$588 MRR
- 零基础搭建 AI Agent 工作流:AI Agent 工具实操教程:从安装到自动化工作流