Zyphra 发布 ZAYA1-8B：仅 7.6 亿活跃参数，开源 MoE 模型数学能力追平 DeepSeek-R1

Zyphra 发布 ZAYA1-8B，一款 8B 总参数、仅 7.6 亿活跃参数的 MoE 模型，在数学基准测试中追平甚至超越 DeepSeek-R1 和 Claude 4.5 Sonnet。全栈 AMD MI300x 训练、Apache 2.0 开源许可，标志着小型高效模型正在逼近前沿水平。

核心结论

2026 年 5 月 5 日，Zyphra 发布 ZAYA1-8B——一款总参数 80 亿、仅 7.6 亿活跃参数 的混合专家（MoE）模型，在数学推理和编程基准测试中追平甚至超越了 DeepSeek-R1-0528 和 Claude 4.5 Sonnet 等前沿大模型。这是业界首个在 AMD Instinct MI300x 集群上完成预训练、中期训练和监督微调的 MoE 模型，且以 Apache 2.0 开源许可发布。

关键要点

发布时间：2026 年 5 月 5 日
模型架构：MoE（混合专家），8B 总参数 / 7.6 亿活跃参数
训练硬件：1,024 节点 AMD MI300x，AMD Pensando Pollara 互联，IBM 定制集群
测试成绩：HMMT'25 达到 89.6，超过 Claude 4.5 Sonnet（88.3）和 GPT-5-High
许可协议：Apache 2.0 开源
可用方式：Hugging Face 下载 + Zyphra Cloud 无服务器端点

背景与触发事件

小型高效模型正在重塑 AI 格局。过去两年，业界共识是"模型越大越好"，但 ZAYA1-8B 证明：智能密度比模型尺寸更重要。在一众百亿、千亿参数模型竞相发布时，Zyphra 选择了一个完全不同的方向——把 80 亿参数塞进一个只要在推理时激活 7.6 亿参数的 MoE 架构中。

Zyphra 此前已发布 ZAYA1-base 技术报告，详细描述了 AMD 训练栈的搭建经验。ZAYA1-8B 是这个路线的最新成果，也是首个完整在 AMD 生态上诞生的前沿 MoE 模型。这一发布打破了 NVIDIA CUDA 在 AI 训练领域的几乎垄断。

AMD training cluster

关键影响（按维度）

维度	变化	对我们意味着什么	建议动作
推理成本	7.6 亿活跃参数，推理所需算力不到 DeepSeek-R1 的 1/10	可在消费级 GPU 上运行，本地推理成为可能	在本地部署测试 ZAYA1-8B，对比 API 调用的成本差异
训练生态	AMD MI300x 首次验证能训练前沿 MoE 模型	NVIDIA 不再不可替代，训练成本有望进一步下降	关注 AMD ROCm 生态工具链，评估替代训练方案
开源许可	Apache 2.0，无商业使用限制	可在商业产品中直接集成和二次开发	纳入模型选型库，作为数学推理专用模型的候选
数学推理	HMMT'25 超过 GPT-5-High 和 Claude 4.5 Sonnet	专业数学推理不再需要调用百亿参数模型	将 ZAYA1-8B 加入编程辅助和数学推理流水线
测试时计算	额外 5.5M Token 可超越 DeepSeek-V3.2	可通过增加推理计算量换取更高精度	实验 Markovian RSA 方法，在产品中实现精度-成本平衡

技术亮点：三项架构创新

ZAYA1-8B 的核心竞争力来自三个技术创新：

1. 压缩卷积注意力（CCA） Zyphra 自研的高效注意力变体，相比标准多头注意力大幅减少计算量，同时保持甚至提升表达能力。这是 7.6 亿活跃参数就能对标千亿模型的关键。

2. MLP 基路由（MLP-based Router） 传统 MoE 路由一般用线性层。Zyphra 改用 MLP 作为专家选择路由，路由稳定性显著提升，专家利用率更均衡。

3. Markovian RSA 测试时计算 一种新的测试时计算方案：模型被训练为理解和响应 Markovian RSA 聚合提示和分块方法。在 40K Token 预算下（仅传递最后 4K Token），ZAYA1-8B 可逼近 DeepSeek-V3.2 和 Qwen3-22B 的性能。

AI model architecture diagram

适配建议

对于 AI 应用开发者

尝试本地部署：7.6 亿活跃参数意味着 MacBook Pro 或消费级 GPU 即可运行。下载 Hugging Face 模型权重，使用 llama.cpp 或 MLX 量化后体验。
构建数学推理管道：在涉及数学计算、逻辑推理、代码生成的场景中用 ZAYA1-8B 替代更大模型，显著降低推理成本。
实验 Markovian RSA：如果对精度要求高，可以实现多轮推理聚合策略，在精度和延迟之间找到平衡点。

对于内容自动化从业者

ZAYA1-8B 的性价比使其成为内容生产流水线的理想候选：

用 Claude 或 DeepSeek 处理复杂创意任务
用 ZAYA1-8B 处理数据清洗、结构化、数学验证等计算密集型子任务
整体推理成本降低 80% 以上

关联阅读：想学方法？看 DeepClaude搭建教程：用DeepSeek跑Claude Code省90% API成本

想了解本地部署的具体操作？看如何用 Claude Code 实现自动化内容生产：30 分钟从零搭建 AI 写作工作流

性能对比概览

模型	活跃参数	HMMT'25	许可	训练硬件
ZAYA1-8B	760M	89.6	Apache 2.0	AMD MI300x
DeepSeek-R1-0528	~37B*	~89	自定义	NVIDIA
Claude 4.5 Sonnet	未知	88.3	专有	NVIDIA
GPT-5-High	未知	88.3	专有	NVIDIA
DeepSeek-V3.2	~37B*	~88	自定义	NVIDIA

*注：DeepSeek 系列也为 MoE 架构，活跃参数约为 37B。

工具词条（触发工具悬浮卡）

正文中出现的以下工具名，平台侧会自动匹配已维护的 tools 库生成 hover-card：DeepSeek、Claude、ChatGPT、Hugging Face

下一步行动

ZAYA1-8B 的出现标志着 小型高效模型已进入实用阶段。对于 content creator 和独立开发者来说，这意味着：

一个能在本地运行、Apache 2.0 许可的强数学/编程模型
推理成本断崖式下降，让更多自动化场景变得经济可行
训练生态不再绑定 NVIDIA，AMD 成为可行选择

有人实践成功：看 Claude Code 48小时创业：一人+29美元月费，3个月做到月入 $9,000 了解如何用 AI 工具快速搭建盈利业务

推荐工具：想搭建自动化工作流？参考独立开发者用 n8n + OpenClaw 搭建自动化工作流，月入 5000 美元的实战案例