Needle 26M 开源模型:蒸馏 Gemini 工具调用能力,手机也能跑 AI Agent
Cactus Compute 开源 Needle——仅 26M 参数的轻量模型,蒸馏自 Gemini 3.1 工具调用能力,可运行在手机手表上,在函数调用基准上击败 Qwen-0.6B 等大模型。
2026年5月16日 · 阅读约 3 分钟
核心结论
Cactus Compute 发布的开源模型 Needle,以仅 26M 参数 实现了媲美大模型的工具调用能力,可运行在手机、手表、眼镜等终端设备上。它蒸馏自 Gemini 3.1 的 Tool Calling 能力,在单次函数调用基准上击败了 FunctionGemma-270M、Qwen-0.6B 等主流模型。对于做 AI 赚钱的从业者来说,这意味着 零成本部署 AI Agent、在边缘设备实现自动化工作流 成为现实。
背景
2026 年 5 月,Cactus Compute 在 GitHub 上以 MIT 开源协议 发布了 Needle 模型,同步上传至 Hugging Face(模型名:Cactus-Compute/needle)。项目发布后迅速获得 1948+ GitHub Stars 和 96 个 Fork。
训练方面,Needle 使用 16 块 TPU v6e 预训练了 200B tokens(耗时 27 小时),随后用 2B tokens 的单次函数调用数据集 进行后训练(仅 45 分钟)。推理效率惊人:Prefill 速度 6000 tokens/s,Decode 速度 1200 tokens/s,远超市面上大多数同尺寸模型。
Needle 核心亮点
| 特性 | 详情 |
|---|---|
| 参数量 | 26M(极轻量) |
| 架构 | Simple Attention Network,d=512,8H/4KV,BPE=8192,8 层 Decoder + 12 层 Encoder |
| 训练成本 | 预训练 27h + 后训练 45min,总计不到 28 小时 |
| 推理性能 | Prefill 6000 tok/s,Decode 1200 tok/s |
| 基准表现 | 超越 FunctionGemma-270M、Qwen-0.6B、Graninte-350M、LFM2.5-350M |
| 硬件要求 | 可在 Mac/PC 上本地微调,可跑在手机、手表、眼镜上 |
| 开源协议 | MIT License(完全免费商用) |
| 在线体验 | 自带 Web UI 沙盒(http://127.0.0.1:7860) |
对 AI 赚钱者的意义
Needle 的出现直接拉低了 AI Agent 的部署成本。 过去运行一个能调用工具的 AI 模型至少需要几百 MB 的显存,而今一个 26M 参数模型就能完成同样任务,且完全免费。
三个明确的赚钱方向:
-
本地化 AI 工具链 — 把 Needle 嵌入自己的自动化脚本,实现无需 API Key 的 Function Calling,节省 OpenAI API 费用。搭配 n8n 或 Dify 搭建定制化 Agent 流程,可参见我们的 AI Agent 工具教程。
-
端侧 AI 产品 — 把 Needle 打包进手机应用或穿戴设备做离线工具调用。例如手表上的语音助手、智能眼镜上的实时信息检索。无需联网、无需云服务器,对开发独立产品是巨大红利。参考我们之前报道的 独立开发者用 n8n 自动化月入 5000 美元的案例。
-
低成本微调垂类模型 — 在自己的 MacBook 上就能对 Needle 进行微调,定制专属的 API 调用 Agent。结合 本地 AI 模型部署教程,一台 M4 Mac 就能跑起完整的 AI 自动化工作流。
一句话总结:当 AI 能装进口袋、无需付费调用 Gemini 或 OpenAI 时,工具调用型 Agent 的商业化大门彻底敞开。
内链引导
- 想了解如何在本地设备上完整跑通 AI 模型?参见我们的 本地 AI 模型部署完整指南,手把手教你用 LM Studio 配置 Mac/PC 环境。
- 深度了解 AI Agent 工具调用的技术细节与实践技巧,推荐阅读 AI Agent 工具调用教程。
- 如果你正探索用 AI 工具做副业赚钱,看看这位开发者如何借助自动化平台实现 月入 5000 美元的真实案例。
- AI Agent 如何帮你赚到第一桶金?参考 OpenClaw 智能体在 TikTok 获 50 万播放的实战复盘。