WayToClawEarn
中等影响Hacker News

开源 26M 参数模型 Needle 发布:将 Gemini 工具调用蒸馏到消费级设备

Cactus 团队开源了 Needle,一个仅 26M 参数的工具调用模型。它通过 Simple Attention Networks 架构(无 FFN),在消费级设备上实现 6000 tok/s 的预填充速度和 1200 tok/s 的解码速度,在单次函数调用任务中击败了 FunctionGemma-270M、Qwen-0.6B 等更大模型。

2026年5月13日 · 阅读约 5 分钟

核心结论

2026 年 5 月 13 日,Cactus 团队在 Hacker News 上发布了 Needle——一个仅有 26M 参数的开源工具调用(function calling)模型。它通过消除传统 Transformer 中的 FFN(前馈网络)层,证明了工具调用本质上不是推理任务,而是检索-组装任务。这意味着运行在手机、手表、智能眼镜上的 AI Agent 不再需要大模型。

关键要点

  • 发布时间:2026-05-13(Hacker News 首秀)
  • 模型规模:26M 参数,仅注意力层 + 门控机制,无 MLP
  • 性能数据:消费级设备上 6000 tok/s 预填充、1200 tok/s 解码
  • 训练成本:200B tokens 预训练(27 小时 on 16x TPU v6e)+ 2B tokens 后训练(45 分钟)
  • 开源授权:MIT 协议,权重在 Hugging Face 可下载

背景:为什么 Agent 模型需要小模型?

当前 AI Agent 生态面临一个根本矛盾:Agent 体验需要实时响应,但大模型太重,无法运行在端侧设备上

OpenAI 的 GPT-4o、Anthropic 的 Claude Opus 等模型虽然工具调用能力强,但推理成本高、延迟大。而小模型(<1B 参数)在工具调用任务上的表现一直不理想。

Cactus 团队的洞察是:工具调用 = 检索 + 组装,不是推理。模型不需要记住大量世界知识(那是 FFN 的职责),它只需要根据用户意图匹配工具名称、提取参数、输出 JSON。Cross-attention 是做这件事的正确原语。

Needle 的关键创新:Simple Attention Networks

Needle 的核心架构创新是 Simple Attention Networks (SAN)

维度传统 TransformerNeedle (SAN)
架构组件Attention + FFN (MLP)仅 Attention + Gating
参数效率FFN 占 2/3 参数无 FFN,全部参数用于注意力
推理速度受 FFN 计算瓶颈限制极高吞吐(6000 tok/s 预填充)
适用场景通用语言理解工具调用、RAG、检索型任务
端侧部署困难(模型通常 >7B)轻松(26M 参数,MB 级大小)

这个发现具有普适性:任何依赖外部结构化知识的任务(工具调用、RAG、检索增强生成)都不需要模型在 FFN 中"记住"事实。如果事实在输入中提供,模型只需要学会匹配和组装。

性能对比

在单次函数调用基准测试中,Needle(26M)的表现:

模型参数Needle 对比
Needle26M基准
FunctionGemma270M✅ Needle 胜出
Qwen-2.50.6B✅ Needle 胜出
Granite-3.0350M✅ Needle 胜出
LFM-2.5350M✅ Needle 胜出

Needle 以 10-20 倍更少的参数量击败了同类专用模型。

训练过程:低成本+合成数据

Needle 的训练流程值得关注,因为它展示了极低的训练成本

  1. 预训练阶段:在 200B tokens 上预训练,使用 16 块 TPU v6e,耗时 27 小时
  2. 后训练阶段:在 2B tokens 的合成函数调用数据上微调,仅 45 分钟
  3. 数据合成:通过 Gemini 生成了涵盖 15 种工具类别(定时器、消息、导航、智能家居等)的训练数据

整个训练流程可以在 不到 30 小时内完成,这对于想定制自己专用工具调用模型的团队来说门槛极低。

如何在本地运行 Needle

Needle 已经发布在 GitHub 和 Hugging Face 上,可以直接在你的 Mac/PC 上运行和微调:

terminal

# 克隆仓库
git clone https://github.com/cactus-compute/needle
cd needle

# 安装依赖
pip install -r requirements.txt

# 运行推理
python run.py --model Cactus-Compute/needle

你也可以在 Cactus 团队提供的 Playground 中直接体验。

正文示例图 — run needlemodel on mac laptop

Needle 对 AI 赚钱/自动化意味着什么

从 WayToClawEarn 读者的角度,Needle 的出现解锁了几个关键机会:

1. 端侧 Agent 成为现实

26M 参数意味着模型可以嵌入手机 App、浏览器插件、甚至智能手表。AI Agent 不再需要云端的 GPT-4o,一个 26M 模型就能处理大部分工具调用场景。这意味着:

  • 更低的 API 成本(零 API 调用费)
  • 更快的响应(无需网络往返)
  • 更好的隐私(数据不出设备)

2. 自动化流水线降本

对于现有的 n8n / Make.com 自动化工作流,可以把 Needle 作为本地工具调度模块,处理工具选择、参数提取等任务——完全不消耗 OpenAI/Claude 的 API 额度。

3. 小团队独立部署

由于模型极度轻量,可以在 VPS 甚至 Raspberry Pi 上运行。对于想搭建小众 Agent 工具的个人开发者,这是一条极高性价比的路径。

工具词条

正文中自然出现的工具词条:GeminiOpenAIClaudeClaude CodeDeepSeekn8nMake.comHugging Face

下一步行动:你可能感兴趣的内容

想用手上的 Mac 跑本地模型?看这篇教程:

想了解 AI Agent 工具怎么用?

真实案例:18 岁零基础用 AI Agent 造出了月入 $5,000 的 SaaS:


本文基于 Cactus 团队在 Hacker News 的开源发布(2026-05-13)和 GitHub 仓库内容撰写。

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。