NVIDIA开源SANA-WM：2.6B参数世界模型，单图生成1分钟720p视频

NVIDIA 开源 SANA-WM，仅 2.6B 参数即可从单张图片生成最长 1 分钟的 720p 连续视频，支持精确 6 自由度相机控制。蒸馏版本可在单张 RTX 5090 上 34 秒完成生成，比同类模型快 36 倍。这项开源世界模型将为视频生成、游戏开发、自动驾驶仿真等领域带来新的可能性。

核心结论

SANA-WM 是 NVIDIA 最新开源的高效分钟级世界模型，仅 2.6B 参数即可生成最长 60 秒的 720p 高清视频，且支持精确的 6 自由度相机轨迹控制。

世界模型（World Model）是 AI 领域的关键前沿方向——它能模拟物理世界中的时序演化过程，对自动驾驶、机器人操控、游戏开发和视频生成等场景至关重要。

然而当前主流世界模型存在三大瓶颈：

SANA-WM 通过四大核心设计创新，同时解决了以上三个问题。

SANA-WM 的架构围绕四个关键设计展开：

设计	功能	价值
混合线性注意力	帧级 Gated DeltaNet + softmax 注意力	内存高效的长时间上下文建模
双分支相机控制	6 自由度轨迹精确跟随	视频方向/视角精确可控
两阶段生成管线	长视频精炼器处理第一阶段输出	提升序列质量和一致性
鲁棒标注管线	从公共视频提取精确的度量级 6-DoF 相机位姿	高质量时空一致的动作标签

指标	SANA-WM (2.6B)	LingBot-World	HY-WorldPlay
参数量	2.6B	~10B+	~10B+
训练数据	213K 公开片段	大规模私有数据	大规模私有数据
训练计算	64 H100 × 15 天	更多 GPU × 更长时间	更多 GPU × 更长时间
输出质量	可比	基线水准	基线水准
吞吐量	36× 更高	1×	1×
相机控制	✅ 6-DoF 精确控制	部分支持	部分支持
开源	✅ Apache 2.0	❌ 闭源	❌ 闭源

SANA-WM 的意义远超"又一个视频生成模型"。

第一，世界模型进入"可消费"阶段。2.6B 参数意味着它可以在消费级 GPU 上运行——蒸馏版在 RTX 5090 上 34 秒就能生成 1 分钟视频。这比之前需要数张 H100 集群的方案完全不同量级。

第二，开源打破了垄断。目前的分钟级世界模型几乎全部被闭源工业方案垄断。SANA-WM 以 Apache 2.0 协议开源，意味着个人开发者和中小团队也能使用世界模型能力。

第三，训练效率的验证。仅用 213K 公开视频片段和 15 天训练就达到可比质量，证明高效世界模型不需要海量私有数据——这对学术研究和开源社区是极大的利好。

正文示例 — SANA-WM 训练数据与效率对比图

对于内容创作者和自动化流水线开发者：

正文中自然出现的工具名称：NVIDIA