Google 发布 Gemini Omni Flash：能用视频+文字生成新视频的 AI 创作模型

Google 发布 Gemini Omni Flash——支持以视频+文字输入生成新视频，已集成到 Flow 平台。相比 Veo 在角色一致性和现实知识方面大幅提升，内容创作者将迎来新的素材生成方式。

核心结论

2026 年 5 月 23 日，Google 在 I/O 大会后正式发布了 Gemini Omni 系列模型的第一个版本——Omni Flash。这是一款"anything-to-anything"生成式 AI 模型，目前专注于视频生成，已集成到 Google 的 AI 视频编辑平台 Flow 中。相比上一代 Veo，Omni Flash 支持同时以视频片段+文字提示为基础生成新内容，并且能更好地保持角色一致性。

关键要点

事件时间：2026 年 5 月 23 日
影响对象：AI 视频创作者、内容自动化团队、使用 AI 生成素材的电商与营销人员
核心变化：从"文字→视频"升级为"视频+文字→新视频"，角色一致性大幅改善，内容创作流程可能因此重构

背景与触发事件

Google 在 2026 年 I/O 大会上展出了 Gemini Omni 系列模型，定位为"全输入→全输出"（anything-to-anything）的统一生成模型。Omni Flash 是首个公开发布的版本，搭载在 Google 的 AI 视频创作与编辑平台 Flow 中。

根据 The Verge 记者 Allison Johnson 的实测，Omni Flash 可以上传一段已有的视频片段，再配合文字 prompt 生成全新的视频内容。Google 声称，Omni 模型在生成视频时融入了更多的"现实世界知识"，并且能更好地保持角色和物体在视频各帧之间的一致性。

实测结果呈现出"令人困惑的混合体"——有些场景效果惊艳，有些则仍然不稳定。

Google 视频生成模型演进

模型	发布时间	核心能力	输入方式
Veo	2024	文字→视频生成	仅文字 prompt
Veo 2	2025	更高分辨率、更长时长	文字 + 参考图
Omni Flash	2026年5月	视频+文字→新视频	视频片段 + 文字 prompt
Omni（未来）	待发布	任意输入→任意输出	图片/视频/音频/文字互相转换

对内容创作工作流的影响

正向改变

素材复用：现有视频素材可以作为 AI 生成的基础，大幅降低冷启动成本
角色一致性：AI 生成的视频中，角色/物体的视觉特征更稳定，不再每帧"换脸"
简化编辑：直接在 Flow 平台内完成从生成到后期编辑的全流程

当前局限

输出仍是视频，尚未实现"文字→3D/音频"等多模态输出（未来的 Omni 旗舰版会补全）
角色一致性虽有改进，但在复杂场景下仍会出现"漂浮"和变形
需要亲手实测才能判断是否达到商业可用标准

Omni Flash 在 Flow 编辑平台上的操作界面示意

适配建议

内容创作者可以考虑将 Flow + Omni Flash 纳入短视频生产管线，先从素材复用的低成本方案入手
电商产品视频：用已有产品展示视频片段作为种子，让 AI 生成不同角度的变体
关注后续 Omni 全功能版的发布——"anything-to-anything"一旦成熟，将彻底改变内容工作流
同时保留 Veo 作为备选模型，Omni Flash 并非在所有场景下都优于前代

工具词条（触发工具悬浮卡）

正文中自然出现的工具名包括：Gemini、Google、OpenAI、ChatGPT、DeepSeek、Claude。这些词条在平台侧会匹配已维护 tools 库，前端显示 hover-card。

内链引导

想用 AI 自动化内容生产？看：如何用 n8n + ChatGPT 搭建 AI 内容自动化分发系统
真实案例：他靠 AI 代码审查+规范驱动开发月入过万