原生多模态生成
同一段提示词同时生成文字描述、关键帧图像与视频,角色、风格与光线在不同模态间保持一致。
相比 Veo / Sora 2 / Seedance 2.0 / Kling 等专用视频模型,Gemini Omni 把语言理解、图像生成、视频生成与音频合成放进同一架构。
同一段提示词同时生成文字描述、关键帧图像与视频,角色、风格与光线在不同模态间保持一致。
不再依赖把多个专用模型拼接的方案,文本、图像、视频与音频共享同一组权重与上下文窗口。
环境声、配乐与对白在生成视频的同一遍前向计算里完成对齐,脚步落点、唇形和节拍开箱即合。
无需重新生成整段视频,可以用自然语言替换物体、修改光线、调整镜头,沿用 Nano Banana 的编辑思路。
上传现有片段后用提示词重新调度,参考图、参考视频、参考音频可在一条指令里组合驱动。
内建产品广告、Reels、音乐 MV、电影感短片等模板,降低首次使用门槛并保证镜头语言。
以下数据综合自 Reddit、X 上的泄露截图与 TestingCatalog、Programming Insider、OfficeChai 等媒体报道。
| 维度 | 已知信息 |
|---|---|
| 所属家族 | Google Gemini(被视为 Veo 系列的继任品牌) |
| 模型 ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| 单段时长 | 5 / 8 / 10 秒,可在客户端中拼接 |
| 分辨率 | 480p / 720p / 1080p |
| 宽高比 | 16:9、9:16、1:1 |
| 音频 | 原生合成,与画面单遍同步 |
| 输入模态 | 文本 / 图像 / 视频 / 音频参考 |
| 访问方式 | Gemini App 灰度,预计 I/O 后开放 API |
| 配额示例 | 据泄露报告,AI Pro 两次生成约消耗 86% 当日配额 |
过去谷歌的生成式栈由专门的 Veo(视频)、Nano Banana / Imagen(图像)和 Gemini(文本)组合而成。Omni 把这些能力合并到同一架构。
此前
Veo 3.1
视频生成 + 同步音频
Nano Banana / Imagen
图像生成与编辑
Gemini 2.5 / 3.x
文本推理 · 长上下文
现在 · Omni
Gemini Omni
文本 · 图像 · 视频 · 音频,单模型单提示
统一模型 + 长上下文 + 同步音频,意味着团队可以用一段连贯的描述完成从故事板到成片的全部步骤。
英雄镜头、包装揭示与生活方式画面,带节奏对齐的环境音直接交付。
9:16 竖屏剪辑,配合 on-mic 对白与卡点音乐,适合滚动停留型社交内容。
上传参考音轨,Omni 自动让画面卡在节拍上,并在多个镜头里保持角色一致。
把多段 10 秒 omni-clip 拼成多镜头序列,灯光、人物与音床保持连续。
SaaS / 时尚 / DTC 网站的可循环 16:9 氛围素材,自带品牌色与静音可读性。
把脚本转成带唇形对齐的解说视频,配合同步的环境音设计。
数据综合自 Artificial Analysis 榜单、Looksy AI、Oimi AI 与官方发布会信息,仅作横向参考。
| 模型 | 厂商 | 架构形态 | 原生音频 | 单段时长 |
|---|---|---|---|---|
| Gemini Omni
Omni
| 统一 Omni(视频 + 图像 + 音频) | 同遍合成同步 | 5 / 8 / 10s | |
| Veo 3.1 | 专用视频模型 | 原生支持 | 约 8s | |
| Seedance 2.0 | ByteDance | 专用多模态视频 | 原生支持 | 可达 15s / 镜头 |
| Sora 2 | OpenAI | 专用视频模型 | 原生支持 | 约 20s |
| Kling V3.0 | Kuaishou | 专用视频模型 | 有限 | 约 10s |
关键节点按公开报道时间排序,仍在动态更新。
X 用户 @Thomas16937378 在 Gemini 视频生成面板内发现 UI 字符串 "Start with an idea or try a template. Powered by Omni."
TestingCatalog 与 Chetaslua 等账号曝出移动端介绍卡 "Meet our new video model",以及完整模型 ID 与 10 秒时长限制。
"教授黑板推导三角函数"等示例验证文字一致性与物理动作的高保真度,社区开始密集对比 Veo 3.1。
主舞台时段被普遍预期会正式公布 Gemini Omni,可能伴随 Flash / Pro 分级、新的 API 与订阅档位调整。
它是谷歌即将发布的统一多模态模型,原生在同一架构内生成文本、图像、视频和同步音频,是 Veo / Imagen / Gemini 三条产品线的合并者。
截至 2026 年 5 月中旬,Omni 仍是泄露阶段,官方预期在 Google I/O 2026(5 月 19–20 日)主舞台揭幕。
元数据显示 Omni 在工程上继承自 Veo 体系,但产品上不再使用 Veo 品牌,而是把视频能力与 Gemini 的文本、图像合并。
可以。环境声、配乐与对白在视频生成同一遍里被合成出来,不需要额外混音。这也是"omni"命名的关键依据。
泄露的模型 ID 显示单段限制为 5、8 或 10 秒,客户端层面会支持多段拼接。
尚未公布。Reddit 用户截图显示两次 Omni 生成会消耗约 86% 的 AI Pro 每日配额,推测高画质档可能进入 Ultra / Pro Plus 这类更高订阅。
本页内容综合自以下公开来源,建议交叉阅读以获得完整背景。
泄露细节、UI 字符串与早期 demo 解读。
统一模型的可能形态、与 Seedance / Veo 的对比。
完整模型 ID、应用内提示与社区反应汇总。
规格、应用场景与竞品对比的整理版。
Gemini 家族的多模态能力、长上下文与代理化方向。