WayToClawEarn
高影响Hacker News

Needle 开源:26M 参数模型复现 Gemini 工具调用能力,可在消费级设备上运行

Cactus 团队开源的 Needle 仅用 26M 参数就实现了 Gemini 级别的函数调用(tool calling)能力,预训练 200B token 仅需 27 小时,推理速度在消费级设备上可达 6000 tok/s pref ill。其架构彻底去除了 FFN 层,仅靠 Attention + Gating 完成工具调用。

2026年5月13日 · 阅读约 5 分钟

核心结论

Cactus 团队开源了 Needle,一个仅 26M 参数 的简单注意力网络(Simple Attention Network),专门用于单次函数调用(single-shot function calling)。它从 Gemini 3.1 蒸馏而来,在消费级设备上运行速度达 6000 tok/s prefill / 1200 tok/s decode。核心发现:工具调用本质上是"检索+组装"任务,大模型的 FFN 参数在这一场景中纯属浪费。

关键要点

  • 发布时间:2026 年 5 月 13 日
  • 影响对象:AI Agent 开发者、边缘计算团队、端侧 AI 爱好者
  • 核心变化:26M 参数模型在单次函数调用任务上超越 270M-600M 级别竞品(FunctionGemma、Qwen-0.6B、Granite-350M)

背景与触发事件

2026 年 5 月 13 日,Cactus 团队创始人 Henry 在 Hacker News 上正式发布了 Needle 项目。该项目源自对现有 AI Agent 生态的一个关键观察:端侧设备上缺少有效的工具调用模型,而大模型(7B+)在被蒸馏到端侧时,大部分参数在工具调用场景中并未被有效利用。

Needle 的完整训练过程极度高效:

  • 预训练:16 块 TPU v6e、200B tokens、仅 27 小时
  • 后训练:2B tokens 合成函数调用数据、仅 45 分钟
  • 数据集通过 Gemini 自动合成,涵盖 15 种工具类别(定时器、消息、导航、智能家居等)

SEO:26M 参数、函数调用模型、端侧 AI、Gemini 蒸馏 GEO:TL;DR 式关键数据摘要,精确数字加分

关键影响(按维度)

维度变化对 AI Agent 开发者意味着什么建议动作
模型大小从 7B+ 降至 26M端侧设备终于可以原生运行工具调用在测试环境试用 Needle playground
推理速度6000 tok/s prefill, 1200 tok/s decodeMacBook/手机即可实时处理工具调用替换本地测试中的大模型方案
架构创新完全去掉 FFN 层,仅 Attention + GatingFFN 在检索类任务中是冗余的评估自己 Agent 系统中 FFN 的 ROI
训练成本200B tokens / 27hrs / 16 TPU普通人也能复现端侧模型训练用提供的微调接口定制自己的工具集
许可证MIT 开源可商用、可修改直接集成到现有流水线

架构亮点:Simple Attention Network

Needle 的架构非常独特:完全去掉了 FFN 层。整个模型只有 Self-Attention + Cross-Attention + Gating。设计直觉是:工具调用本质上是"根据用户查询匹配工具名称 → 提取参数值 → 输出 JSON",这是一个检索任务,不需要 FFN 的复杂特征变换。

模型配置:

  • d=512, 8H/4KV, BPE=8192
  • Encoder: 12 层 Self-Attention(无 FFN)
  • Decoder: 8 层(Self-Attention + Cross-Attention + Gated Residual)
  • 共享 Embedding + LM Head(tied weights)

适配建议

对于正在构建 AI Agent 工作流的开发者来说,Needle 提供了几个可立即落地的价值点:

  1. 替换本地测试模型:在 MacBook 上开发 AI Agent 时,用 Needle 替代 GPT-4/Gemini 进行工具调用测试,速度提升数十倍
  2. 端侧部署:对于手机、手表、IoT 设备上的 Agent,Needle 是当前最适配的工具调用方案
  3. 定制微调:Needle 的 playground UI 支持一键生成数据和微调,可以针对自己的工具集快速定制
  4. 架构启发:FFN 是推理任务的核心,但在检索任务中是冗余的 — 这个洞察可以应用到 RAG、工具调用、结构化数据提取等场景

快速上手

terminal
git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

# 打开浏览器访问 http://127.0.0.1:7860

Needle 架构图 — Simple Attention Network structure

与现有模型的对比

模型参数量单次函数调用准确率运行设备许可证
Needle26M超越 270M-600M 竞品手机/手表/眼镜/PCMIT
FunctionGemma270M基准线移动设备Gemma
Qwen-0.6B600M基准线低端 PC开源
Granite-350M350M基准线移动设备Apache 2.0
LFM2.5-350M350M基准线移动设备开源

注:Needle 在单次函数调用场景表现优异,但这些对比模型在对话式场景中容量更大、泛化能力更强。

相关延伸资料

工具词条(触发工具悬浮卡)

本项目中自然出现以下 AI 工具:Gemini(蒸馏来源)、Hugging Face(模型托管)、Claude CodeOpenClawn8n — 这些工具都是 AI Agent 工作流中的核心组件,平台侧会自动匹配已维护的 tools 库。

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。