Needle 开源：26M 参数模型复现 Gemini 工具调用能力，可在消费级设备上运行

Cactus 团队开源的 Needle 仅用 26M 参数就实现了 Gemini 级别的函数调用（tool calling）能力，预训练 200B token 仅需 27 小时，推理速度在消费级设备上可达 6000 tok/s pref ill。其架构彻底去除了 FFN 层，仅靠 Attention + Gating 完成工具调用。

核心结论

Cactus 团队开源了 Needle，一个仅 26M 参数 的简单注意力网络（Simple Attention Network），专门用于单次函数调用（single-shot function calling）。它从 Gemini 3.1 蒸馏而来，在消费级设备上运行速度达 6000 tok/s prefill / 1200 tok/s decode。核心发现：工具调用本质上是"检索+组装"任务，大模型的 FFN 参数在这一场景中纯属浪费。

关键要点

发布时间：2026 年 5 月 13 日
影响对象：AI Agent 开发者、边缘计算团队、端侧 AI 爱好者
核心变化：26M 参数模型在单次函数调用任务上超越 270M-600M 级别竞品（FunctionGemma、Qwen-0.6B、Granite-350M）

背景与触发事件

2026 年 5 月 13 日，Cactus 团队创始人 Henry 在 Hacker News 上正式发布了 Needle 项目。该项目源自对现有 AI Agent 生态的一个关键观察：端侧设备上缺少有效的工具调用模型，而大模型（7B+）在被蒸馏到端侧时，大部分参数在工具调用场景中并未被有效利用。

Needle 的完整训练过程极度高效：

预训练：16 块 TPU v6e、200B tokens、仅 27 小时
后训练：2B tokens 合成函数调用数据、仅 45 分钟
数据集通过 Gemini 自动合成，涵盖 15 种工具类别（定时器、消息、导航、智能家居等）

SEO：26M 参数、函数调用模型、端侧 AI、Gemini 蒸馏 GEO：TL;DR 式关键数据摘要，精确数字加分

关键影响（按维度）

维度	变化	对 AI Agent 开发者意味着什么	建议动作
模型大小	从 7B+ 降至 26M	端侧设备终于可以原生运行工具调用	在测试环境试用 Needle playground
推理速度	6000 tok/s prefill, 1200 tok/s decode	MacBook/手机即可实时处理工具调用	替换本地测试中的大模型方案
架构创新	完全去掉 FFN 层，仅 Attention + Gating	FFN 在检索类任务中是冗余的	评估自己 Agent 系统中 FFN 的 ROI
训练成本	200B tokens / 27hrs / 16 TPU	普通人也能复现端侧模型训练	用提供的微调接口定制自己的工具集
许可证	MIT 开源	可商用、可修改	直接集成到现有流水线

架构亮点：Simple Attention Network

Needle 的架构非常独特：完全去掉了 FFN 层。整个模型只有 Self-Attention + Cross-Attention + Gating。设计直觉是：工具调用本质上是"根据用户查询匹配工具名称 → 提取参数值 → 输出 JSON"，这是一个检索任务，不需要 FFN 的复杂特征变换。

模型配置：

d=512, 8H/4KV, BPE=8192
Encoder: 12 层 Self-Attention（无 FFN）
Decoder: 8 层（Self-Attention + Cross-Attention + Gated Residual）
共享 Embedding + LM Head（tied weights）

适配建议

对于正在构建 AI Agent 工作流的开发者来说，Needle 提供了几个可立即落地的价值点：

替换本地测试模型：在 MacBook 上开发 AI Agent 时，用 Needle 替代 GPT-4/Gemini 进行工具调用测试，速度提升数十倍
端侧部署：对于手机、手表、IoT 设备上的 Agent，Needle 是当前最适配的工具调用方案
定制微调：Needle 的 playground UI 支持一键生成数据和微调，可以针对自己的工具集快速定制
架构启发：FFN 是推理任务的核心，但在检索任务中是冗余的 — 这个洞察可以应用到 RAG、工具调用、结构化数据提取等场景

快速上手

terminal

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

# 打开浏览器访问 http://127.0.0.1:7860

Needle 架构图 — Simple Attention Network structure

与现有模型的对比

模型	参数量	单次函数调用准确率	运行设备	许可证
Needle	26M	超越 270M-600M 竞品	手机/手表/眼镜/PC	MIT
FunctionGemma	270M	基准线	移动设备	Gemma
Qwen-0.6B	600M	基准线	低端 PC	开源
Granite-350M	350M	基准线	移动设备	Apache 2.0
LFM2.5-350M	350M	基准线	移动设备	开源

注：Needle 在单次函数调用场景表现优异，但这些对比模型在对话式场景中容量更大、泛化能力更强。

工具词条（触发工具悬浮卡）

本项目中自然出现以下 AI 工具：Gemini（蒸馏来源）、Hugging Face（模型托管）、Claude Code、OpenClaw、n8n — 这些工具都是 AI Agent 工作流中的核心组件，平台侧会自动匹配已维护的 tools 库。

内链引导

想学本地运行 AI 模型？看：如何用 LM Studio 在 M4 Mac 上运行本地 AI 模型：30 分钟完整教程
AI Agent 实战案例：OpenClaw AI Agent 生财记：5 天 500 万播放、$588 MRR
零基础搭建 AI Agent 工作流：AI Agent 工具实操教程：从安装到自动化工作流