Needle 26M 开源模型：蒸馏 Gemini 工具调用能力，手机也能跑 AI Agent

Cactus Compute 开源 Needle——仅 26M 参数的轻量模型，蒸馏自 Gemini 3.1 工具调用能力，可运行在手机手表上，在函数调用基准上击败 Qwen-0.6B 等大模型。

核心结论

Cactus Compute 发布的开源模型 Needle，以仅 26M 参数 实现了媲美大模型的工具调用能力，可运行在手机、手表、眼镜等终端设备上。它蒸馏自 Gemini 3.1 的 Tool Calling 能力，在单次函数调用基准上击败了 FunctionGemma-270M、Qwen-0.6B 等主流模型。对于做 AI 赚钱的从业者来说，这意味着 零成本部署 AI Agent、在边缘设备实现自动化工作流 成为现实。

背景

2026 年 5 月，Cactus Compute 在 GitHub 上以 MIT 开源协议 发布了 Needle 模型，同步上传至 Hugging Face（模型名：Cactus-Compute/needle）。项目发布后迅速获得 1948+ GitHub Stars 和 96 个 Fork。

训练方面，Needle 使用 16 块 TPU v6e 预训练了 200B tokens（耗时 27 小时），随后用 2B tokens 的单次函数调用数据集 进行后训练（仅 45 分钟）。推理效率惊人：Prefill 速度 6000 tokens/s，Decode 速度 1200 tokens/s，远超市面上大多数同尺寸模型。

Needle 核心亮点

特性	详情
参数量	26M（极轻量）
架构	Simple Attention Network，d=512，8H/4KV，BPE=8192，8 层 Decoder + 12 层 Encoder
训练成本	预训练 27h + 后训练 45min，总计不到 28 小时
推理性能	Prefill 6000 tok/s，Decode 1200 tok/s
基准表现	超越 FunctionGemma-270M、Qwen-0.6B、Graninte-350M、LFM2.5-350M
硬件要求	可在 Mac/PC 上本地微调，可跑在手机、手表、眼镜上
开源协议	MIT License（完全免费商用）
在线体验	自带 Web UI 沙盒（http://127.0.0.1:7860）

tiny ai tool calling

对 AI 赚钱者的意义

Needle 的出现直接拉低了 AI Agent 的部署成本。 过去运行一个能调用工具的 AI 模型至少需要几百 MB 的显存，而今一个 26M 参数模型就能完成同样任务，且完全免费。

三个明确的赚钱方向：

本地化 AI 工具链 — 把 Needle 嵌入自己的自动化脚本，实现无需 API Key 的 Function Calling，节省 OpenAI API 费用。搭配 n8n 或 Dify 搭建定制化 Agent 流程，可参见我们的 AI Agent 工具教程。
端侧 AI 产品 — 把 Needle 打包进手机应用或穿戴设备做离线工具调用。例如手表上的语音助手、智能眼镜上的实时信息检索。无需联网、无需云服务器，对开发独立产品是巨大红利。参考我们之前报道的独立开发者用 n8n 自动化月入 5000 美元的案例。
低成本微调垂类模型 — 在自己的 MacBook 上就能对 Needle 进行微调，定制专属的 API 调用 Agent。结合本地 AI 模型部署教程，一台 M4 Mac 就能跑起完整的 AI 自动化工作流。

一句话总结：当 AI 能装进口袋、无需付费调用 Gemini 或 OpenAI 时，工具调用型 Agent 的商业化大门彻底敞开。

内链引导

想了解如何在本地设备上完整跑通 AI 模型？参见我们的本地 AI 模型部署完整指南，手把手教你用 LM Studio 配置 Mac/PC 环境。
深度了解 AI Agent 工具调用的技术细节与实践技巧，推荐阅读 AI Agent 工具调用教程。
如果你正探索用 AI 工具做副业赚钱，看看这位开发者如何借助自动化平台实现月入 5000 美元的真实案例。
AI Agent 如何帮你赚到第一桶金？参考 OpenClaw 智能体在 TikTok 获 50 万播放的实战复盘。