Liquid AI 发布 LFM2-24B-A2B：24B 参数 MoE 开源模型，32GB 内存即可本地运行

Liquid AI 日前发布了其最大规模的开源模型 LFM2-24B-A2B。这款采用稀疏混合专家架构的模型仅需 32GB 内存即可运行，在消费级笔记本和桌面设备上实现 20-30 tok/s 的解码速度，为 AI 本地化部署提供了全新选择。

核心结论

2026年5月2日，Liquid AI 的 LFM2-24B-A2B 模型登上 Hacker News 首页引发热议。这是一款 24B 总参数（2.3B 活跃参数/Token）的稀疏混合专家架构模型，采用卷积优先的设计理念，在 32GB 内存环境下即可运行，CPU 推理速度可达 20-30 tok/s。

关键要点

事件时间：2026年5月2日（HN 首页热议），模型早前已发布
目标人群：AI 应用开发者、本地部署爱好者、边缘计算从业者
核心价值：开源权重 + 消费级硬件可运行 + 低推理延迟

背景：LFM2 架构的扩展之路

Liquid AI 的 LFM2 系列采用了一种区别于传统 Transformer 的混合架构——将高效的门控短卷积块与少量分组查询注意力（GQA）层结合，通过硬件在环架构搜索（hardware-in-the-loop architecture search）优化而来。LFM2-24B-A2B 是该系列的最大型号，从 350M 的密集模型一路扩展到 24B MoE，覆盖了近两个数量级的参数范围。

这次扩展遵循了明确的配方：更深的层数 + 更多的专家。模型从 24 层增至 40 层，每组 MoE 块的专家数量从 32 翻倍至 64，同时保持 top-4 路由策略。关键之处在于，活跃参数仅从 1.5B 增长到 2.3B（约 1.5 倍），而总参数增长了 3 倍（8.3B → 24B），推理延迟和能耗始终跟踪较小的活跃路径。

关键影响（按维度）

维度	变化	对开发者的意义	建议动作
部署门槛	32GB 内存即可运行，支持 CPU/GPU/NPU	告别高端 GPU 依赖，可在 MacBook 和迷你主机上部署	测试 LFM2-24B-A2B 在本地设备上的运行表现
推理成本	活跃参数仅 2.3B，功耗低	边缘设备推理成本接近于 2B 密集模型	评估替代 Qwen3-30B-A3B 等更大活跃参数模型
开源生态	Apache 2.0 风格开源权重，GGUF/llama.cpp 即用	无需 API Key，完全本地化	集成到现有 llama.cpp/vLLM 推理流水线
社区反馈	HN 社区实测 CPU 推理 20-30 tok/s	无 GPU 场景下的实用选择	对比 Gemma4 / Qwen3.5 等同类模型的性价比

架构突破：卷积优先的 MoE 设计

LFM2-24B-A2B 最值得关注的创新在于其1:3 的注意力与卷积比例——40 层中仅有 10 层使用 GQA 注意力，其余 30 层为高效卷积块。这与当前主流 LLM 几乎全用注意力层的设计截然不同。

这种架构选择带来了两个核心优势：

低内存开销：卷积层的 KV 缓存需求远低于注意力层，适合 32GB 内存的消费级设备
高吞吐服务：在一张 H100 SXM5 上使用 vLLM 连续批处理时，在 1024 并发请求下达到约 26.8K tokens/s，超越同等规模 MoE 模型

模型完整支持 llama.cpp（GGUF 多量化选项：Q4_0/Q4_K_M/Q5_K_M/Q6_K/Q8_0/F16）、vLLM 和 SGLang，提供从开发到生产的一站式推理方案。

基准测试表现

在 GPQA Diamond、MMLU-Pro、IFEval、IFBench、GSM8K 和 MATH-500 等标准基准测试中，质量随总参数呈对数线性提升，证明 LFM2 混合架构遵循可预测的扩展行为。从 350M 到 24B 的近 100 倍参数跨度中，并未在较小模型尺寸上出现天花板效应。

值得注意的是，Liquid AI 选择了 instruct 而非 reasoning 版本发布，理由是训练速度更快且 instruct 模型更受社区欢迎。预训练仍在进行中（已训练 17T tokens），完成后将推出带强化学习后训练的 LFM2.5-24B-A2B。

LFM2 benchmark performance chart

社区实测反馈

Hacker News 社区对 LFM2-24B-A2B 的反馈集中在其实用性上：

CPU 推理可行：DDR4 内存 + CPU 即可运行，速度达 20-30 tok/s
GPU 用户建议：如果拥有 4GB+ VRAM 的 GPU，社区推荐 Gemma4 或 Qwen3.5/3.6 等密集模型作为替代
基准呼吁：社区期望看到更多独立第三方质量对比，而非仅速度指标

工具词条

正文中自然出现以下工具名称，平台侧会匹配已维护的 tools 库：Liquid AI、llama.cpp、vLLM、Hugging Face、DeepSeek、Gemini、Gemma、Qwen

适配建议

在 llama.cpp 中测试 LFM2-24B-A2B 的 Q4_K_M 量化版，评估本地推理场景
对 AI Agent 工作流中需要本地推理的环节（如内容提取、分类），可考虑用该模型替代 API 调用
关注 LFM2.5 后续版本，强化学习后训练可能带来质量提升

参考来源

内链引导

想学本地 AI 模型部署？看：如何用 DeepSeek V4 替代 Anthropic 跑 Claude Code：5 分钟省 90% API 费用
真实 AI 工具应用案例：Claude Code 48小时创业：一人+29美元月费，3个月做到月入$9,000