Google 发布 Gemini Omni Flash:能用视频+文字生成新视频的 AI 创作模型
Google 发布 Gemini Omni Flash——支持以视频+文字输入生成新视频,已集成到 Flow 平台。相比 Veo 在角色一致性和现实知识方面大幅提升,内容创作者将迎来新的素材生成方式。
2026年5月24日 · 阅读约 4 分钟
核心结论
2026 年 5 月 23 日,Google 在 I/O 大会后正式发布了 Gemini Omni 系列模型的第一个版本——Omni Flash。这是一款"anything-to-anything"生成式 AI 模型,目前专注于视频生成,已集成到 Google 的 AI 视频编辑平台 Flow 中。相比上一代 Veo,Omni Flash 支持同时以视频片段+文字提示为基础生成新内容,并且能更好地保持角色一致性。
关键要点
- 事件时间:2026 年 5 月 23 日
- 影响对象:AI 视频创作者、内容自动化团队、使用 AI 生成素材的电商与营销人员
- 核心变化:从"文字→视频"升级为"视频+文字→新视频",角色一致性大幅改善,内容创作流程可能因此重构
背景与触发事件
Google 在 2026 年 I/O 大会上展出了 Gemini Omni 系列模型,定位为"全输入→全输出"(anything-to-anything)的统一生成模型。Omni Flash 是首个公开发布的版本,搭载在 Google 的 AI 视频创作与编辑平台 Flow 中。
根据 The Verge 记者 Allison Johnson 的实测,Omni Flash 可以上传一段已有的视频片段,再配合文字 prompt 生成全新的视频内容。Google 声称,Omni 模型在生成视频时融入了更多的"现实世界知识",并且能更好地保持角色和物体在视频各帧之间的一致性。
实测结果呈现出"令人困惑的混合体"——有些场景效果惊艳,有些则仍然不稳定。
Google 视频生成模型演进
| 模型 | 发布时间 | 核心能力 | 输入方式 |
|---|---|---|---|
| Veo | 2024 | 文字→视频生成 | 仅文字 prompt |
| Veo 2 | 2025 | 更高分辨率、更长时长 | 文字 + 参考图 |
| Omni Flash | 2026年5月 | 视频+文字→新视频 | 视频片段 + 文字 prompt |
| Omni(未来) | 待发布 | 任意输入→任意输出 | 图片/视频/音频/文字互相转换 |
对内容创作工作流的影响
正向改变
- 素材复用:现有视频素材可以作为 AI 生成的基础,大幅降低冷启动成本
- 角色一致性:AI 生成的视频中,角色/物体的视觉特征更稳定,不再每帧"换脸"
- 简化编辑:直接在 Flow 平台内完成从生成到后期编辑的全流程
当前局限
- 输出仍是视频,尚未实现"文字→3D/音频"等多模态输出(未来的 Omni 旗舰版会补全)
- 角色一致性虽有改进,但在复杂场景下仍会出现"漂浮"和变形
- 需要亲手实测才能判断是否达到商业可用标准
适配建议
- 内容创作者可以考虑将 Flow + Omni Flash 纳入短视频生产管线,先从素材复用的低成本方案入手
- 电商产品视频:用已有产品展示视频片段作为种子,让 AI 生成不同角度的变体
- 关注后续 Omni 全功能版的发布——"anything-to-anything"一旦成熟,将彻底改变内容工作流
- 同时保留 Veo 作为备选模型,Omni Flash 并非在所有场景下都优于前代
相关延伸资料
工具词条(触发工具悬浮卡)
正文中自然出现的工具名包括:Gemini、Google、OpenAI、ChatGPT、DeepSeek、Claude。这些词条在平台侧会匹配已维护 tools 库,前端显示 hover-card。
内链引导
- 想用 AI 自动化内容生产?看:如何用 n8n + ChatGPT 搭建 AI 内容自动化分发系统
- 真实案例:他靠 AI 代码审查+规范驱动开发月入过万