开源 26M 参数模型 Needle 发布：将 Gemini 工具调用蒸馏到消费级设备

Cactus 团队开源了 Needle，一个仅 26M 参数的工具调用模型。它通过 Simple Attention Networks 架构（无 FFN），在消费级设备上实现 6000 tok/s 的预填充速度和 1200 tok/s 的解码速度，在单次函数调用任务中击败了 FunctionGemma-270M、Qwen-0.6B 等更大模型。

核心结论

2026 年 5 月 13 日，Cactus 团队在 Hacker News 上发布了 Needle——一个仅有 26M 参数的开源工具调用（function calling）模型。它通过消除传统 Transformer 中的 FFN（前馈网络）层，证明了工具调用本质上不是推理任务，而是检索-组装任务。这意味着运行在手机、手表、智能眼镜上的 AI Agent 不再需要大模型。

关键要点

发布时间：2026-05-13（Hacker News 首秀）
模型规模：26M 参数，仅注意力层 + 门控机制，无 MLP
性能数据：消费级设备上 6000 tok/s 预填充、1200 tok/s 解码
训练成本：200B tokens 预训练（27 小时 on 16x TPU v6e）+ 2B tokens 后训练（45 分钟）
开源授权：MIT 协议，权重在 Hugging Face 可下载

背景：为什么 Agent 模型需要小模型？

当前 AI Agent 生态面临一个根本矛盾：Agent 体验需要实时响应，但大模型太重，无法运行在端侧设备上。

OpenAI 的 GPT-4o、Anthropic 的 Claude Opus 等模型虽然工具调用能力强，但推理成本高、延迟大。而小模型（<1B 参数）在工具调用任务上的表现一直不理想。

Cactus 团队的洞察是：工具调用 = 检索 + 组装，不是推理。模型不需要记住大量世界知识（那是 FFN 的职责），它只需要根据用户意图匹配工具名称、提取参数、输出 JSON。Cross-attention 是做这件事的正确原语。

Needle 的关键创新：Simple Attention Networks

Needle 的核心架构创新是 Simple Attention Networks (SAN)：

维度	传统 Transformer	Needle (SAN)
架构组件	Attention + FFN (MLP)	仅 Attention + Gating
参数效率	FFN 占 2/3 参数	无 FFN，全部参数用于注意力
推理速度	受 FFN 计算瓶颈限制	极高吞吐（6000 tok/s 预填充）
适用场景	通用语言理解	工具调用、RAG、检索型任务
端侧部署	困难（模型通常 >7B）	轻松（26M 参数，MB 级大小）

这个发现具有普适性：任何依赖外部结构化知识的任务（工具调用、RAG、检索增强生成）都不需要模型在 FFN 中"记住"事实。如果事实在输入中提供，模型只需要学会匹配和组装。

性能对比

在单次函数调用基准测试中，Needle（26M）的表现：

模型	参数	Needle 对比
Needle	26M	基准
FunctionGemma	270M	✅ Needle 胜出
Qwen-2.5	0.6B	✅ Needle 胜出
Granite-3.0	350M	✅ Needle 胜出
LFM-2.5	350M	✅ Needle 胜出

Needle 以 10-20 倍更少的参数量击败了同类专用模型。

训练过程：低成本+合成数据

Needle 的训练流程值得关注，因为它展示了极低的训练成本：

预训练阶段：在 200B tokens 上预训练，使用 16 块 TPU v6e，耗时 27 小时
后训练阶段：在 2B tokens 的合成函数调用数据上微调，仅 45 分钟
数据合成：通过 Gemini 生成了涵盖 15 种工具类别（定时器、消息、导航、智能家居等）的训练数据

整个训练流程可以在 不到 30 小时内完成，这对于想定制自己专用工具调用模型的团队来说门槛极低。

如何在本地运行 Needle

Needle 已经发布在 GitHub 和 Hugging Face 上，可以直接在你的 Mac/PC 上运行和微调：

terminal


# 克隆仓库
git clone https://github.com/cactus-compute/needle
cd needle

# 安装依赖
pip install -r requirements.txt

# 运行推理
python run.py --model Cactus-Compute/needle

你也可以在 Cactus 团队提供的 Playground 中直接体验。

正文示例图 — run needlemodel on mac laptop