Liquid AI 发布 LFM2-24B-A2B:24B 参数 MoE 开源模型,32GB 内存即可本地运行
Liquid AI 日前发布了其最大规模的开源模型 LFM2-24B-A2B。这款采用稀疏混合专家架构的模型仅需 32GB 内存即可运行,在消费级笔记本和桌面设备上实现 20-30 tok/s 的解码速度,为 AI 本地化部署提供了全新选择。
2026年5月2日 · 阅读约 5 分钟
核心结论
2026年5月2日,Liquid AI 的 LFM2-24B-A2B 模型登上 Hacker News 首页引发热议。这是一款 24B 总参数(2.3B 活跃参数/Token)的稀疏混合专家架构模型,采用卷积优先的设计理念,在 32GB 内存环境下即可运行,CPU 推理速度可达 20-30 tok/s。
关键要点
- 事件时间:2026年5月2日(HN 首页热议),模型早前已发布
- 目标人群:AI 应用开发者、本地部署爱好者、边缘计算从业者
- 核心价值:开源权重 + 消费级硬件可运行 + 低推理延迟
背景:LFM2 架构的扩展之路
Liquid AI 的 LFM2 系列采用了一种区别于传统 Transformer 的混合架构——将高效的门控短卷积块与少量分组查询注意力(GQA)层结合,通过硬件在环架构搜索(hardware-in-the-loop architecture search)优化而来。LFM2-24B-A2B 是该系列的最大型号,从 350M 的密集模型一路扩展到 24B MoE,覆盖了近两个数量级的参数范围。
这次扩展遵循了明确的配方:更深的层数 + 更多的专家。模型从 24 层增至 40 层,每组 MoE 块的专家数量从 32 翻倍至 64,同时保持 top-4 路由策略。关键之处在于,活跃参数仅从 1.5B 增长到 2.3B(约 1.5 倍),而总参数增长了 3 倍(8.3B → 24B),推理延迟和能耗始终跟踪较小的活跃路径。
关键影响(按维度)
| 维度 | 变化 | 对开发者的意义 | 建议动作 |
|---|---|---|---|
| 部署门槛 | 32GB 内存即可运行,支持 CPU/GPU/NPU | 告别高端 GPU 依赖,可在 MacBook 和迷你主机上部署 | 测试 LFM2-24B-A2B 在本地设备上的运行表现 |
| 推理成本 | 活跃参数仅 2.3B,功耗低 | 边缘设备推理成本接近于 2B 密集模型 | 评估替代 Qwen3-30B-A3B 等更大活跃参数模型 |
| 开源生态 | Apache 2.0 风格开源权重,GGUF/llama.cpp 即用 | 无需 API Key,完全本地化 | 集成到现有 llama.cpp/vLLM 推理流水线 |
| 社区反馈 | HN 社区实测 CPU 推理 20-30 tok/s | 无 GPU 场景下的实用选择 | 对比 Gemma4 / Qwen3.5 等同类模型的性价比 |
架构突破:卷积优先的 MoE 设计
LFM2-24B-A2B 最值得关注的创新在于其1:3 的注意力与卷积比例——40 层中仅有 10 层使用 GQA 注意力,其余 30 层为高效卷积块。这与当前主流 LLM 几乎全用注意力层的设计截然不同。
这种架构选择带来了两个核心优势:
- 低内存开销:卷积层的 KV 缓存需求远低于注意力层,适合 32GB 内存的消费级设备
- 高吞吐服务:在一张 H100 SXM5 上使用 vLLM 连续批处理时,在 1024 并发请求下达到约 26.8K tokens/s,超越同等规模 MoE 模型
模型完整支持 llama.cpp(GGUF 多量化选项:Q4_0/Q4_K_M/Q5_K_M/Q6_K/Q8_0/F16)、vLLM 和 SGLang,提供从开发到生产的一站式推理方案。
基准测试表现
在 GPQA Diamond、MMLU-Pro、IFEval、IFBench、GSM8K 和 MATH-500 等标准基准测试中,质量随总参数呈对数线性提升,证明 LFM2 混合架构遵循可预测的扩展行为。从 350M 到 24B 的近 100 倍参数跨度中,并未在较小模型尺寸上出现天花板效应。
值得注意的是,Liquid AI 选择了 instruct 而非 reasoning 版本发布,理由是训练速度更快且 instruct 模型更受社区欢迎。预训练仍在进行中(已训练 17T tokens),完成后将推出带强化学习后训练的 LFM2.5-24B-A2B。
社区实测反馈
Hacker News 社区对 LFM2-24B-A2B 的反馈集中在其实用性上:
- CPU 推理可行:DDR4 内存 + CPU 即可运行,速度达 20-30 tok/s
- GPU 用户建议:如果拥有 4GB+ VRAM 的 GPU,社区推荐 Gemma4 或 Qwen3.5/3.6 等密集模型作为替代
- 基准呼吁:社区期望看到更多独立第三方质量对比,而非仅速度指标
工具词条
正文中自然出现以下工具名称,平台侧会匹配已维护的 tools 库:Liquid AI、llama.cpp、vLLM、Hugging Face、DeepSeek、Gemini、Gemma、Qwen
适配建议
- 在 llama.cpp 中测试 LFM2-24B-A2B 的 Q4_K_M 量化版,评估本地推理场景
- 对 AI Agent 工作流中需要本地推理的环节(如内容提取、分类),可考虑用该模型替代 API 调用
- 关注 LFM2.5 后续版本,强化学习后训练可能带来质量提升
参考来源
内链引导
- 想学本地 AI 模型部署?看:如何用 DeepSeek V4 替代 Anthropic 跑 Claude Code:5 分钟省 90% API 费用
- 真实 AI 工具应用案例:Claude Code 48小时创业:一人+29美元月费,3个月做到月入$9,000