WayToClawEarn
中等影响Liquid AI / Hacker News

Liquid AI 发布 LFM2-24B-A2B:24B 参数 MoE 开源模型,32GB 内存即可本地运行

Liquid AI 日前发布了其最大规模的开源模型 LFM2-24B-A2B。这款采用稀疏混合专家架构的模型仅需 32GB 内存即可运行,在消费级笔记本和桌面设备上实现 20-30 tok/s 的解码速度,为 AI 本地化部署提供了全新选择。

2026年5月2日 · 阅读约 5 分钟

核心结论

2026年5月2日,Liquid AI 的 LFM2-24B-A2B 模型登上 Hacker News 首页引发热议。这是一款 24B 总参数(2.3B 活跃参数/Token)的稀疏混合专家架构模型,采用卷积优先的设计理念,在 32GB 内存环境下即可运行,CPU 推理速度可达 20-30 tok/s。

关键要点

  • 事件时间:2026年5月2日(HN 首页热议),模型早前已发布
  • 目标人群:AI 应用开发者、本地部署爱好者、边缘计算从业者
  • 核心价值:开源权重 + 消费级硬件可运行 + 低推理延迟

背景:LFM2 架构的扩展之路

Liquid AI 的 LFM2 系列采用了一种区别于传统 Transformer 的混合架构——将高效的门控短卷积块与少量分组查询注意力(GQA)层结合,通过硬件在环架构搜索(hardware-in-the-loop architecture search)优化而来。LFM2-24B-A2B 是该系列的最大型号,从 350M 的密集模型一路扩展到 24B MoE,覆盖了近两个数量级的参数范围。

这次扩展遵循了明确的配方:更深的层数 + 更多的专家。模型从 24 层增至 40 层,每组 MoE 块的专家数量从 32 翻倍至 64,同时保持 top-4 路由策略。关键之处在于,活跃参数仅从 1.5B 增长到 2.3B(约 1.5 倍),而总参数增长了 3 倍(8.3B → 24B),推理延迟和能耗始终跟踪较小的活跃路径。

关键影响(按维度)

维度变化对开发者的意义建议动作
部署门槛32GB 内存即可运行,支持 CPU/GPU/NPU告别高端 GPU 依赖,可在 MacBook 和迷你主机上部署测试 LFM2-24B-A2B 在本地设备上的运行表现
推理成本活跃参数仅 2.3B,功耗低边缘设备推理成本接近于 2B 密集模型评估替代 Qwen3-30B-A3B 等更大活跃参数模型
开源生态Apache 2.0 风格开源权重,GGUF/llama.cpp 即用无需 API Key,完全本地化集成到现有 llama.cpp/vLLM 推理流水线
社区反馈HN 社区实测 CPU 推理 20-30 tok/s无 GPU 场景下的实用选择对比 Gemma4 / Qwen3.5 等同类模型的性价比

架构突破:卷积优先的 MoE 设计

LFM2-24B-A2B 最值得关注的创新在于其1:3 的注意力与卷积比例——40 层中仅有 10 层使用 GQA 注意力,其余 30 层为高效卷积块。这与当前主流 LLM 几乎全用注意力层的设计截然不同。

这种架构选择带来了两个核心优势:

  • 低内存开销:卷积层的 KV 缓存需求远低于注意力层,适合 32GB 内存的消费级设备
  • 高吞吐服务:在一张 H100 SXM5 上使用 vLLM 连续批处理时,在 1024 并发请求下达到约 26.8K tokens/s,超越同等规模 MoE 模型

模型完整支持 llama.cpp(GGUF 多量化选项:Q4_0/Q4_K_M/Q5_K_M/Q6_K/Q8_0/F16)、vLLM 和 SGLang,提供从开发到生产的一站式推理方案。

基准测试表现

在 GPQA Diamond、MMLU-Pro、IFEval、IFBench、GSM8K 和 MATH-500 等标准基准测试中,质量随总参数呈对数线性提升,证明 LFM2 混合架构遵循可预测的扩展行为。从 350M 到 24B 的近 100 倍参数跨度中,并未在较小模型尺寸上出现天花板效应。

值得注意的是,Liquid AI 选择了 instruct 而非 reasoning 版本发布,理由是训练速度更快且 instruct 模型更受社区欢迎。预训练仍在进行中(已训练 17T tokens),完成后将推出带强化学习后训练的 LFM2.5-24B-A2B。

LFM2 benchmark performance chart

社区实测反馈

Hacker News 社区对 LFM2-24B-A2B 的反馈集中在其实用性上:

  • CPU 推理可行:DDR4 内存 + CPU 即可运行,速度达 20-30 tok/s
  • GPU 用户建议:如果拥有 4GB+ VRAM 的 GPU,社区推荐 Gemma4 或 Qwen3.5/3.6 等密集模型作为替代
  • 基准呼吁:社区期望看到更多独立第三方质量对比,而非仅速度指标

工具词条

正文中自然出现以下工具名称,平台侧会匹配已维护的 tools 库:Liquid AIllama.cppvLLMHugging FaceDeepSeekGeminiGemmaQwen

适配建议

  • 在 llama.cpp 中测试 LFM2-24B-A2B 的 Q4_K_M 量化版,评估本地推理场景
  • 对 AI Agent 工作流中需要本地推理的环节(如内容提取、分类),可考虑用该模型替代 API 调用
  • 关注 LFM2.5 后续版本,强化学习后训练可能带来质量提升

参考来源

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。