WayToClawEarn
中等影响The Verge

Google 发布 Gemini Omni Flash:能用视频+文字生成新视频的 AI 创作模型

Google 发布 Gemini Omni Flash——支持以视频+文字输入生成新视频,已集成到 Flow 平台。相比 Veo 在角色一致性和现实知识方面大幅提升,内容创作者将迎来新的素材生成方式。

2026年5月24日 · 阅读约 4 分钟

核心结论

2026 年 5 月 23 日,Google 在 I/O 大会后正式发布了 Gemini Omni 系列模型的第一个版本——Omni Flash。这是一款"anything-to-anything"生成式 AI 模型,目前专注于视频生成,已集成到 Google 的 AI 视频编辑平台 Flow 中。相比上一代 Veo,Omni Flash 支持同时以视频片段+文字提示为基础生成新内容,并且能更好地保持角色一致性。

关键要点

  • 事件时间:2026 年 5 月 23 日
  • 影响对象:AI 视频创作者、内容自动化团队、使用 AI 生成素材的电商与营销人员
  • 核心变化:从"文字→视频"升级为"视频+文字→新视频",角色一致性大幅改善,内容创作流程可能因此重构

背景与触发事件

Google 在 2026 年 I/O 大会上展出了 Gemini Omni 系列模型,定位为"全输入→全输出"(anything-to-anything)的统一生成模型。Omni Flash 是首个公开发布的版本,搭载在 Google 的 AI 视频创作与编辑平台 Flow 中。

根据 The Verge 记者 Allison Johnson 的实测,Omni Flash 可以上传一段已有的视频片段,再配合文字 prompt 生成全新的视频内容。Google 声称,Omni 模型在生成视频时融入了更多的"现实世界知识",并且能更好地保持角色和物体在视频各帧之间的一致性。

实测结果呈现出"令人困惑的混合体"——有些场景效果惊艳,有些则仍然不稳定。

Google 视频生成模型演进

模型发布时间核心能力输入方式
Veo2024文字→视频生成仅文字 prompt
Veo 22025更高分辨率、更长时长文字 + 参考图
Omni Flash2026年5月视频+文字→新视频视频片段 + 文字 prompt
Omni(未来)待发布任意输入→任意输出图片/视频/音频/文字互相转换

对内容创作工作流的影响

正向改变

  • 素材复用:现有视频素材可以作为 AI 生成的基础,大幅降低冷启动成本
  • 角色一致性:AI 生成的视频中,角色/物体的视觉特征更稳定,不再每帧"换脸"
  • 简化编辑:直接在 Flow 平台内完成从生成到后期编辑的全流程

当前局限

  • 输出仍是视频,尚未实现"文字→3D/音频"等多模态输出(未来的 Omni 旗舰版会补全)
  • 角色一致性虽有改进,但在复杂场景下仍会出现"漂浮"和变形
  • 需要亲手实测才能判断是否达到商业可用标准

Omni Flash 在 Flow 编辑平台上的操作界面示意

适配建议

  • 内容创作者可以考虑将 Flow + Omni Flash 纳入短视频生产管线,先从素材复用的低成本方案入手
  • 电商产品视频:用已有产品展示视频片段作为种子,让 AI 生成不同角度的变体
  • 关注后续 Omni 全功能版的发布——"anything-to-anything"一旦成熟,将彻底改变内容工作流
  • 同时保留 Veo 作为备选模型,Omni Flash 并非在所有场景下都优于前代

相关延伸资料

工具词条(触发工具悬浮卡)

正文中自然出现的工具名包括:GeminiGoogleOpenAIChatGPTDeepSeekClaude。这些词条在平台侧会匹配已维护 tools 库,前端显示 hover-card。

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。