WayToClawEarn
高影响NVIDIA Research / arXiv

NVIDIA开源SANA-WM:2.6B参数世界模型,单图生成1分钟720p视频

NVIDIA 开源 SANA-WM,仅 2.6B 参数即可从单张图片生成最长 1 分钟的 720p 连续视频,支持精确 6 自由度相机控制。蒸馏版本可在单张 RTX 5090 上 34 秒完成生成,比同类模型快 36 倍。这项开源世界模型将为视频生成、游戏开发、自动驾驶仿真等领域带来新的可能性。

2026年5月17日 · 阅读约 4 分钟

核心结论

SANA-WM 是 NVIDIA 最新开源的高效分钟级世界模型,仅 2.6B 参数即可生成最长 60 秒的 720p 高清视频,且支持精确的 6 自由度相机轨迹控制。

关键要点

  • 模型参数量:仅 2.6B(比同类模型小一个数量级)
  • 生成能力:单张图片输入 → 1 分钟 720p 连续视频输出
  • 训练效率:仅 213K 公开视频片段,15 天在 64 张 H100 完成
  • 推理速度:蒸馏版在 RTX 5090 上 34 秒完成 60 秒视频生成
  • 许可证:开源(Apache 2.0),权重即将发布
  • 论文链接:arXiv 2605.15178

背景:世界模型的现状与挑战

世界模型(World Model)是 AI 领域的关键前沿方向——它能模拟物理世界中的时序演化过程,对自动驾驶、机器人操控、游戏开发和视频生成等场景至关重要。

然而当前主流世界模型存在三大瓶颈:

  1. 参数规模过大 — 许多工业级模型超过 10B 甚至 50B 参数,部署门槛高
  2. 推理速度慢 — 生成 1 分钟视频需要数分钟甚至数十分钟
  3. 相机控制不精确 — 无法做到精确的轨迹跟踪

SANA-WM 通过四大核心设计创新,同时解决了以上三个问题。

四大核心架构创新

SANA-WM 的架构围绕四个关键设计展开:

设计功能价值
混合线性注意力帧级 Gated DeltaNet + softmax 注意力内存高效的长时间上下文建模
双分支相机控制6 自由度轨迹精确跟随视频方向/视角精确可控
两阶段生成管线长视频精炼器处理第一阶段输出提升序列质量和一致性
鲁棒标注管线从公共视频提取精确的度量级 6-DoF 相机位姿高质量时空一致的动作标签

效率对比:SANA-WM vs 工业级模型

指标SANA-WM (2.6B)LingBot-WorldHY-WorldPlay
参数量2.6B~10B+~10B+
训练数据213K 公开片段大规模私有数据大规模私有数据
训练计算64 H100 × 15 天更多 GPU × 更长时间更多 GPU × 更长时间
输出质量可比基线水准基线水准
吞吐量36× 更高
相机控制✅ 6-DoF 精确控制部分支持部分支持
开源✅ Apache 2.0❌ 闭源❌ 闭源

这为什么重要?

SANA-WM 的意义远超"又一个视频生成模型"。

第一,世界模型进入"可消费"阶段。2.6B 参数意味着它可以在消费级 GPU 上运行——蒸馏版在 RTX 5090 上 34 秒就能生成 1 分钟视频。这比之前需要数张 H100 集群的方案完全不同量级。

第二,开源打破了垄断。目前的分钟级世界模型几乎全部被闭源工业方案垄断。SANA-WM 以 Apache 2.0 协议开源,意味着个人开发者和中小团队也能使用世界模型能力。

第三,训练效率的验证。仅用 213K 公开视频片段和 15 天训练就达到可比质量,证明高效世界模型不需要海量私有数据——这对学术研究和开源社区是极大的利好。

正文示例 — SANA-WM 训练数据与效率对比图

适配建议

对于内容创作者和自动化流水线开发者:

  1. 关注权重发布 — NVIDIA 表示权重 "coming soon",一旦正式发布即可本地部署测试
  2. 评估集成成本 — 2.6B 参数 + NVFP4 量化意味着单卡 RTX 5090 即可运行,集成门槛极低
  3. 探索自动化视频生成管线 — 将 SANA-WM 接入 n8n 或自定义工作流,实现图片→视频的自动化生产
  4. 关注相机控制 API — 6-DoF 精确控制是 SANA-WM 的核心优势,可用于自动化轨迹生成

参考视频与素材

工具词条

正文中自然出现的工具名称:NVIDIA

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。