高影响NVIDIA Research / arXiv
NVIDIA开源SANA-WM:2.6B参数世界模型,单图生成1分钟720p视频
NVIDIA 开源 SANA-WM,仅 2.6B 参数即可从单张图片生成最长 1 分钟的 720p 连续视频,支持精确 6 自由度相机控制。蒸馏版本可在单张 RTX 5090 上 34 秒完成生成,比同类模型快 36 倍。这项开源世界模型将为视频生成、游戏开发、自动驾驶仿真等领域带来新的可能性。
2026年5月17日 · 阅读约 4 分钟
核心结论
SANA-WM 是 NVIDIA 最新开源的高效分钟级世界模型,仅 2.6B 参数即可生成最长 60 秒的 720p 高清视频,且支持精确的 6 自由度相机轨迹控制。
关键要点
- 模型参数量:仅 2.6B(比同类模型小一个数量级)
- 生成能力:单张图片输入 → 1 分钟 720p 连续视频输出
- 训练效率:仅 213K 公开视频片段,15 天在 64 张 H100 完成
- 推理速度:蒸馏版在 RTX 5090 上 34 秒完成 60 秒视频生成
- 许可证:开源(Apache 2.0),权重即将发布
- 论文链接:arXiv 2605.15178
背景:世界模型的现状与挑战
世界模型(World Model)是 AI 领域的关键前沿方向——它能模拟物理世界中的时序演化过程,对自动驾驶、机器人操控、游戏开发和视频生成等场景至关重要。
然而当前主流世界模型存在三大瓶颈:
- 参数规模过大 — 许多工业级模型超过 10B 甚至 50B 参数,部署门槛高
- 推理速度慢 — 生成 1 分钟视频需要数分钟甚至数十分钟
- 相机控制不精确 — 无法做到精确的轨迹跟踪
SANA-WM 通过四大核心设计创新,同时解决了以上三个问题。
四大核心架构创新
SANA-WM 的架构围绕四个关键设计展开:
| 设计 | 功能 | 价值 |
|---|---|---|
| 混合线性注意力 | 帧级 Gated DeltaNet + softmax 注意力 | 内存高效的长时间上下文建模 |
| 双分支相机控制 | 6 自由度轨迹精确跟随 | 视频方向/视角精确可控 |
| 两阶段生成管线 | 长视频精炼器处理第一阶段输出 | 提升序列质量和一致性 |
| 鲁棒标注管线 | 从公共视频提取精确的度量级 6-DoF 相机位姿 | 高质量时空一致的动作标签 |
效率对比:SANA-WM vs 工业级模型
| 指标 | SANA-WM (2.6B) | LingBot-World | HY-WorldPlay |
|---|---|---|---|
| 参数量 | 2.6B | ~10B+ | ~10B+ |
| 训练数据 | 213K 公开片段 | 大规模私有数据 | 大规模私有数据 |
| 训练计算 | 64 H100 × 15 天 | 更多 GPU × 更长时间 | 更多 GPU × 更长时间 |
| 输出质量 | 可比 | 基线水准 | 基线水准 |
| 吞吐量 | 36× 更高 | 1× | 1× |
| 相机控制 | ✅ 6-DoF 精确控制 | 部分支持 | 部分支持 |
| 开源 | ✅ Apache 2.0 | ❌ 闭源 | ❌ 闭源 |
这为什么重要?
SANA-WM 的意义远超"又一个视频生成模型"。
第一,世界模型进入"可消费"阶段。2.6B 参数意味着它可以在消费级 GPU 上运行——蒸馏版在 RTX 5090 上 34 秒就能生成 1 分钟视频。这比之前需要数张 H100 集群的方案完全不同量级。
第二,开源打破了垄断。目前的分钟级世界模型几乎全部被闭源工业方案垄断。SANA-WM 以 Apache 2.0 协议开源,意味着个人开发者和中小团队也能使用世界模型能力。
第三,训练效率的验证。仅用 213K 公开视频片段和 15 天训练就达到可比质量,证明高效世界模型不需要海量私有数据——这对学术研究和开源社区是极大的利好。
适配建议
对于内容创作者和自动化流水线开发者:
- 关注权重发布 — NVIDIA 表示权重 "coming soon",一旦正式发布即可本地部署测试
- 评估集成成本 — 2.6B 参数 + NVFP4 量化意味着单卡 RTX 5090 即可运行,集成门槛极低
- 探索自动化视频生成管线 — 将 SANA-WM 接入 n8n 或自定义工作流,实现图片→视频的自动化生产
- 关注相机控制 API — 6-DoF 精确控制是 SANA-WM 的核心优势,可用于自动化轨迹生成
参考视频与素材
工具词条
正文中自然出现的工具名称:NVIDIA
内链引导
免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。