Zyphra 发布 ZAYA1-8B:仅 7.6 亿活跃参数,开源 MoE 模型数学能力追平 DeepSeek-R1
Zyphra 发布 ZAYA1-8B,一款 8B 总参数、仅 7.6 亿活跃参数的 MoE 模型,在数学基准测试中追平甚至超越 DeepSeek-R1 和 Claude 4.5 Sonnet。全栈 AMD MI300x 训练、Apache 2.0 开源许可,标志着小型高效模型正在逼近前沿水平。
2026年5月7日 · 阅读约 6 分钟
核心结论
2026 年 5 月 5 日,Zyphra 发布 ZAYA1-8B——一款总参数 80 亿、仅 7.6 亿活跃参数 的混合专家(MoE)模型,在数学推理和编程基准测试中追平甚至超越了 DeepSeek-R1-0528 和 Claude 4.5 Sonnet 等前沿大模型。这是业界首个在 AMD Instinct MI300x 集群上完成预训练、中期训练和监督微调的 MoE 模型,且以 Apache 2.0 开源许可发布。
关键要点
- 发布时间:2026 年 5 月 5 日
- 模型架构:MoE(混合专家),8B 总参数 / 7.6 亿活跃参数
- 训练硬件:1,024 节点 AMD MI300x,AMD Pensando Pollara 互联,IBM 定制集群
- 测试成绩:HMMT'25 达到 89.6,超过 Claude 4.5 Sonnet(88.3)和 GPT-5-High
- 许可协议:Apache 2.0 开源
- 可用方式:Hugging Face 下载 + Zyphra Cloud 无服务器端点
背景与触发事件
小型高效模型正在重塑 AI 格局。过去两年,业界共识是"模型越大越好",但 ZAYA1-8B 证明:智能密度比模型尺寸更重要。在一众百亿、千亿参数模型竞相发布时,Zyphra 选择了一个完全不同的方向——把 80 亿参数塞进一个只要在推理时激活 7.6 亿参数的 MoE 架构中。
Zyphra 此前已发布 ZAYA1-base 技术报告,详细描述了 AMD 训练栈的搭建经验。ZAYA1-8B 是这个路线的最新成果,也是首个完整在 AMD 生态上诞生的前沿 MoE 模型。这一发布打破了 NVIDIA CUDA 在 AI 训练领域的几乎垄断。
关键影响(按维度)
| 维度 | 变化 | 对我们意味着什么 | 建议动作 |
|---|---|---|---|
| 推理成本 | 7.6 亿活跃参数,推理所需算力不到 DeepSeek-R1 的 1/10 | 可在消费级 GPU 上运行,本地推理成为可能 | 在本地部署测试 ZAYA1-8B,对比 API 调用的成本差异 |
| 训练生态 | AMD MI300x 首次验证能训练前沿 MoE 模型 | NVIDIA 不再不可替代,训练成本有望进一步下降 | 关注 AMD ROCm 生态工具链,评估替代训练方案 |
| 开源许可 | Apache 2.0,无商业使用限制 | 可在商业产品中直接集成和二次开发 | 纳入模型选型库,作为数学推理专用模型的候选 |
| 数学推理 | HMMT'25 超过 GPT-5-High 和 Claude 4.5 Sonnet | 专业数学推理不再需要调用百亿参数模型 | 将 ZAYA1-8B 加入编程辅助和数学推理流水线 |
| 测试时计算 | 额外 5.5M Token 可超越 DeepSeek-V3.2 | 可通过增加推理计算量换取更高精度 | 实验 Markovian RSA 方法,在产品中实现精度-成本平衡 |
技术亮点:三项架构创新
ZAYA1-8B 的核心竞争力来自三个技术创新:
1. 压缩卷积注意力(CCA) Zyphra 自研的高效注意力变体,相比标准多头注意力大幅减少计算量,同时保持甚至提升表达能力。这是 7.6 亿活跃参数就能对标千亿模型的关键。
2. MLP 基路由(MLP-based Router) 传统 MoE 路由一般用线性层。Zyphra 改用 MLP 作为专家选择路由,路由稳定性显著提升,专家利用率更均衡。
3. Markovian RSA 测试时计算 一种新的测试时计算方案:模型被训练为理解和响应 Markovian RSA 聚合提示和分块方法。在 40K Token 预算下(仅传递最后 4K Token),ZAYA1-8B 可逼近 DeepSeek-V3.2 和 Qwen3-22B 的性能。
适配建议
对于 AI 应用开发者
- 尝试本地部署:7.6 亿活跃参数意味着 MacBook Pro 或消费级 GPU 即可运行。下载 Hugging Face 模型权重,使用 llama.cpp 或 MLX 量化后体验。
- 构建数学推理管道:在涉及数学计算、逻辑推理、代码生成的场景中用 ZAYA1-8B 替代更大模型,显著降低推理成本。
- 实验 Markovian RSA:如果对精度要求高,可以实现多轮推理聚合策略,在精度和延迟之间找到平衡点。
对于内容自动化从业者
ZAYA1-8B 的性价比使其成为内容生产流水线的理想候选:
- 用
Claude或DeepSeek处理复杂创意任务 - 用 ZAYA1-8B 处理数据清洗、结构化、数学验证等计算密集型子任务
- 整体推理成本降低 80% 以上
关联阅读:想学方法?看 DeepClaude搭建教程:用DeepSeek跑Claude Code省90% API成本
想了解本地部署的具体操作?看 如何用 Claude Code 实现自动化内容生产:30 分钟从零搭建 AI 写作工作流
性能对比概览
| 模型 | 活跃参数 | HMMT'25 | 许可 | 训练硬件 |
|---|---|---|---|---|
| ZAYA1-8B | 760M | 89.6 | Apache 2.0 | AMD MI300x |
| DeepSeek-R1-0528 | ~37B* | ~89 | 自定义 | NVIDIA |
| Claude 4.5 Sonnet | 未知 | 88.3 | 专有 | NVIDIA |
| GPT-5-High | 未知 | 88.3 | 专有 | NVIDIA |
| DeepSeek-V3.2 | ~37B* | ~88 | 自定义 | NVIDIA |
*注:DeepSeek 系列也为 MoE 架构,活跃参数约为 37B。
工具词条(触发工具悬浮卡)
正文中出现的以下工具名,平台侧会自动匹配已维护的 tools 库生成 hover-card:DeepSeek、Claude、ChatGPT、Hugging Face
下一步行动
ZAYA1-8B 的出现标志着 小型高效模型已进入实用阶段。对于 content creator 和独立开发者来说,这意味着:
- 一个能在本地运行、Apache 2.0 许可的强数学/编程模型
- 推理成本断崖式下降,让更多自动化场景变得经济可行
- 训练生态不再绑定 NVIDIA,AMD 成为可行选择
有人实践成功:看 Claude Code 48小时创业:一人+29美元月费,3个月做到月入 $9,000 了解如何用 AI 工具快速搭建盈利业务
推荐工具:想搭建自动化工作流?参考 独立开发者用 n8n + OpenClaw 搭建自动化工作流,月入 5000 美元的实战案例