












最近試了下 Google 在 I/O 2026 發佈的 Gemini Omni Flash ,說下感受。
這個模型最大的不同是可以通過對話來編輯視頻。生成一個片段後,你可以直接說"把背景換成海灘"、"放慢鏡頭"、"加個人在右邊",它會在保留其他內容的基礎上只改你說的部分。不用像 Sora 那樣每次都重新生成整個片段。
幾個關鍵點:
- 支持多模態輸入:文本+圖片+音頻+視頻可以一起喂進去
- 輸出 10 秒片段,帶同步音頻
- YouTube Shorts 免費用,Gemini 應用需要 AI Plus ($7.99/月)
- 開發者 API 還沒開放,說是"幾周內"
- 所有輸出強制帶 SynthID 水印
和 Sora 2 比:Sora 角色一致性更好,能生成 25 秒片段; Omni Flash 勝在多模態輸入和對話編輯,迭代成本低很多。
限制也不少:10 秒上限、不能編輯語音(防 deepfake )、文字渲染不太準、複雜運動場景偶爾會崩。
如果想快速體驗視頻生成,可以看看 [gemini omni]( https://www.veol.ai?utm_source=v2ex) ,支持最高 4K 輸出,按量計費從 $0.15 起。
有用過的 V 友嗎?感覺對話式編輯這個方向挺對的,但 10 秒限制確實有點短。
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。