Needle 发布 26M 参数工具调用模型:用 Gemini 蒸馏技术让 AI Agent 在手机上运行
Cactus 团队开源了 Needle,一个仅 26M 参数的函数调用专用模型,通过蒸馏 Gemini 训练实现 6000 tok/s 的推理速度。它采用独特的 Simple Attention Networks 架构(无 MLP 层),可在手机、手表等消费级设备上运行 AI Agent 的核心工具调用能力,在 HN 上获得 216 分热议。
2026年5月13日 · 阅读约 4 分钟
核心结论
2026 年 5 月 13 日,Cactus 团队在 Hacker News 上开源了 Needle——一个仅 26M 参数的函数调用(Tool Calling)专用模型。它的核心突破在于证明了工具调用本质上是检索组装任务而非推理任务,不需要数百亿参数的大模型。
Needle 在消费级设备上达到 6000 tok/s 的 prefill 速度和 1200 tok/s 的 decode 速度,训练仅耗时 27 小时(16 TPU v6e)加 45 分钟后训练。
关键要点
- 发布时间:2026-05-12(HN 热帖,216 分)
- 模型大小:仅 26M 参数,14MB 权重文件
- 训练成本:200B token 预训练 + 2B token 工具调用数据后训练
- 核心创新:Simple Attention Networks(纯注意力+门控,无 MLP 层)
- 适用场景:手机、手表、智能眼镜、IoT 设备上的本地 AI Agent
背景与触发事件
AI Agent 正在成为行业共识方向,但大规模模型在消费级设备上部署始终存在瓶颈——7B 参数的模型需要约 4GB 内存,而 26M 参数仅需 14MB。Cactus 团队发现,Agent 体验的核心是 tool calling(工具调用/函数调用),本质上是一个检索组装过程:匹配查询→提取参数→输出 JSON。
这不需要大模型的推理能力,小模型配合交叉注意力就足够了。
Cactus 团队在 HN 上说:"我们对构建能在廉价手机上运行的 Agent 模型投入的努力太少深感不满,所以我们自己动手了。"
关键影响(按维度)
| 维度 | 变化 | 对行业意味着什么 | 建议动作 |
|---|---|---|---|
| 设备门槛 | 26M 参数模型可在 2GB RAM 手机上运行 | AI Agent 从云端下沉到终端 | 评估本地工具调用场景接入可行性 |
| 推理速度 | 6000 tok/s prefill,1200 tok/s decode | 实时语音助手响应不再是问题 | 测试 Needle 在智能音箱/手表上的效果 |
| 训练成本 | 27 小时 TPU + 45 分钟后训练,约 $5K | 垂直领域工具调用模型可以自己蒸馏 | 探索用 Gemini/Claude 合成数据微调小模型 |
| 架构创新 | 无 FFN 层的 Simple Attention Networks | 证明推理不是 tool calling 的必要条件 | 关注该架构扩展至 RAG/检索增强生成场景 |
| 开源程度 | MIT 协议,权重+代码全开源 | 社区可以基于它定制垂直工具链 | 下载 14MB 权重本地部署试用 |
适配建议
对于运营 AI 内容和自动化工具的个人开发者和小团队:
- 本地 Agent 试验:在 M4 Mac 或 Linux 上跑 Needle,配合 n8n 或 OpenClaw 做一个无需调用云端 API 的本地 Agent 实验
- 降低 API 成本:将 Needle 作为工具调用的前置过滤层,只有复杂推理才路由到大模型,预计可降低 70% API 费用
- 端侧部署:探索在 Home Assistant、Android 应用或 CLI 工具中集成 Needle,实现本地 AI 功能
任务清单(示例)
- 下载 Needle 模型权重(14MB,GitHub release)
- 在本地跑 playground 测试工具调用能力
- 评估是否可以作为 AI Agent 工作流的前置步骤
示例:本地运行 Needle
# 克隆 Needle 仓库
git clone https://github.com/cactus-compute/needle.git
cd needle
# 安装依赖(Python 3.10+)
pip install -r requirements.txt
# 下载模型权重(15MB)
wget https://huggingface.co/Cactus-Compute/needle/resolve/main/needle.pt
# 运行测试 — 设置闹钟的示例
python run.py --model needle.pt --prompt "在 10 分钟后叫醒我"社区反响
HN 讨论中有几个值得关注的视角:
- Simon Willison 建议团队发布一个在线 playground 演示,因为模型足够小,跑在廉价 VPS 上也花不了多少钱
- 有开发者评论说 Needle 的闹钟和购物清单功能表现优于 Siri
- 多位 HN 用户认为这个模型非常适合 Home Assistant 等智能家居场景
- 还有开发者提出可以将 Needle 作为 CLI 工具的参数解析器——用自然语言直接调用程序功能
相关延伸资料
工具词条
本文涉及的工具:Gemini、OpenAI、Claude、n8n、Hermes Agent。以上均为 AI 工具生态中的常见名称,平台侧会根据已维护的 tools 库自动匹配并生成 tool_mentions 悬浮卡。
内链引导
- 想学搭建 AI Agent 工作流?看:AI Agent 工具实操教程:从安装到自动化工作流
- 有人用 AI Agent 造出了月入 $5,000 的 SaaS:18岁零基础用AI Agent造出月入$5,000的SaaS
- 推荐阅读:如何用 n8n + ChatGPT 搭建 AI 内容自动化分发系统:n8n + ChatGPT 教程