惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V
Visual Studio Blog
T
The Exploit Database - CXSecurity.com
Cyberwarzone
Cyberwarzone
C
CXSECURITY Database RSS Feed - CXSecurity.com
E
Exploit-DB.com RSS Feed
S
Security @ Cisco Blogs
Scott Helme
Scott Helme
H
Hacker News: Front Page
I
Intezer
N
News and Events Feed by Topic
V
V2EX - 技术
L
LINUX DO - 热门话题
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
L
LINUX DO - 最新话题
K
Kaspersky official blog
S
Securelist
Latest news
Latest news
P
Proofpoint News Feed
C
Cisco Blogs
T
Troy Hunt's Blog
The Register - Security
The Register - Security
V
Vulnerabilities – Threatpost
T
Threat Research - Cisco Blogs
Microsoft Azure Blog
Microsoft Azure Blog
L
LangChain Blog
B
Blog RSS Feed
小众软件
小众软件
T
Tenable Blog
P
Proofpoint News Feed
MyScale Blog
MyScale Blog
SecWiki News
SecWiki News
Jina AI
Jina AI
Know Your Adversary
Know Your Adversary
Recorded Future
Recorded Future
Google Online Security Blog
Google Online Security Blog
D
Docker
W
WeLiveSecurity
Attack and Defense Labs
Attack and Defense Labs
T
Tor Project blog
A
About on SuperTechFans
U
Unit 42
S
Security Archives - TechRepublic
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
O
OpenAI News
NISL@THU
NISL@THU
雷峰网
雷峰网
Vercel News
Vercel News
AWS News Blog
AWS News Blog
L
Lohrmann on Cybersecurity
Google DeepMind News
Google DeepMind News

人人都是产品经理

县城商铺倒闭潮,远比我们想象中的惨烈 – 人人都是产品经理, 独家:KK键盘为什么突然火了?还超越豆包登顶App Store第一名 小红书宣布千粉以下账号将获得流量倾斜 – 人人都是产品经理, 知行比越差,收藏夹越满:从 Vibe Coding 走向 Spec-Driven Development 企业 Agent 落地为什么这么难?一文讲透问题与破局思路 A/B测试:不要再拍脑袋做优化 从KZK的招聘理念谈起 Codex:那个让你不用再追AI工具的工具 OpenAI 员工写了个让 Codex 蒸馏自己的 Prompt AI淘汰的是流程,不是SSC – 人人都是产品经理, 收入下降时,高水平经营分析从不只做同环比 – 人人都是产品经理, 拼多多上的新品战争 – 人人都是产品经理, 产品经理的取舍之道:不再强求100%功能闭环 – 人人都是产品经理, 基于Coze平台构建AI简历诊断助手全流程指南 – 人人都是产品经理, AI产品岗面试通行证:硬实力打底,软实力破局 – 人人都是产品经理, 扯掉AI的华丽包装:2026年,我们需要怎样的大模型应用工程师? – 人人都是产品经理, 如何用Skills打通一键发邮件的工作流? – 人人都是产品经理, 你的Agent没问题,是你对「知识」的理解错了 – 人人都是产品经理, 税局老师讲增值税法啦 – 人人都是产品经理, 我是如何用 Harness 架构给 AI 产品赋能的 – 人人都是产品经理, BLEU 和 ROUGE:AI 产品经理为什么要懂这两个评估指标? – 人人都是产品经理, AI用户体验要素四:从精确指令到模糊意图 先别谈智能,数据还没对齐:企业数字化的12条真相 – 人人都是产品经理 百年营销模型失效,翻转“漏斗”才是新出路! – 人人都是产品经理, 这家创业公司发现了大模型的一个根本性缺陷 这家AI独角兽,凭什么敢让美国医院利润翻10倍? – 人人都是产品经理, 这家AI独角兽,凭什么敢让美国医院利润翻10倍? 从0到300亿,即时零售的教科书级打法 从“级联系统”到“原始多模态”,大模型的架构演进与商业仓储 【核算】垫付利息计算与补差模型 – 人人都是产品经理, 财务信息化:看似改系统,实则动利益 – 人人都是产品经理, AI 时代,To B 内容营销的天塌了? – 人人都是产品经理, 【万字长文】DeepSeek与豆包生图提示词深度评测及提效实战 – 人人都是产品经理, 聊聊情绪价值的分化:楼上要内啡肽,楼下要多巴胺 – 人人都是产品经理, AI时代,每个人都能有一个只认识自己的读书助手 我为什么放弃了利用大模型进行多项目的矩阵式开发 – 人人都是产品经理, 我为什么放弃了利用大模型进行多项目的矩阵式开发 这才是有效的用户画像,而不是乱套RFM – 人人都是产品经理, 用Codex独立开发了一个产品,我收获的4个心得 – 人人都是产品经理, 用Codex独立开发了一个产品,我收获的4个心得 – 人人都是产品经理, 从拉美突围到出海榜前四:“全能型”AI工具为何挺进「影视娱乐」深水区 – 人人都是产品经理, 被AI折叠的硅谷:1万个亿万富翁的诞生,与每天消失的1000个饭碗 – 人人都是产品经理, 小厂的“韬定律”时刻:死磕业务,不只有算法与技术一条出路 – 人人都是产品经理, 跑分时代落幕:AI 下半场,Token 成本与生态才是护城河 – 人人都是产品经理, 中国办公智能体平台市场研究报告2026 – 人人都是产品经理 2026重塑产品-商业篇:它如何创造和传递价值的? – 人人都是产品经理, SaaS已死?AI产品经理必须懂的“服务即软件”新模型 – 人人都是产品经理, 通过codex解析 Agent工作流程 – 人人都是产品经理, AI种草:真实感的规模化,是创新还是欺诈? – 人人都是产品经理, 下一个AI较量场,为什么是Harness? – 人人都是产品经理 项目复盘:26年做企业邮箱客户端必定失败? – 人人都是产品经理, 一文教你读懂Token的消耗规则 – 人人都是产品经理, 你95%的代码不用自己写的那天,已经来了——Django作者谈AI编程的拐点、代价与定时炸弹 – 人人都是产品经理, 什么是云原生?从业务代码是如何跑在物理硬件上的讲起! – 人人都是产品经理, 1200万月活的华泰证券,为什么还要做企微私域 – 人人都是产品经理, 高客单增长复盘:退货率会吃掉品牌溢价 – 人人都是产品经理, 四个老板,四个行业,但他们不敢上AI的理由一模一样 – 人人都是产品经理, 从“大而全”到“小而美”:商超格局重构的底层逻辑 – 人人都是产品经理, OpenHat 智能帽子场景思辨与体验 – 人人都是产品经理, AI的下一战:从“生成万物”到“修复记忆”,定义情感连续性新协议 货代制单工作台实战:如何把「手工做 PDF」变成一键生成、层层把关的制单闭环? – 人人都是产品经理, 元宝派:腾讯的AI“诺曼底”,一场重塑社交与协作的远征 – 人人都是产品经理, 黄仁勋最新2万字演讲全文,GTC2026演讲完整实录 – 人人都是产品经理, 最强安全模型 Mythos 来了:别听自媒体吹牛,这只是 B 端自动化的补票工具 – 人人都是产品经理, 从规模到质量,木鸟途家美团转向情绪消费 – 人人都是产品经理, 模型会出错,可流程不许出错——零容忍场景里,AI 产品经理到底在管什么 – 人人都是产品经理, 财务AI最先赚钱,但99%的人都搞错了方向 – 人人都是产品经理, 转岗 AI 产品经理,赢在第一步:先搞懂自己适合哪一类 – 人人都是产品经理, AI把PRD、原型、竞品分析全干了,那我干啥? – 人人都是产品经理, 重磅开源!Harmonybrew 正式上线:把成熟 Homebrew 生态带入 OpenHarmony – 人人都是产品经理, 最近几个月的AI大模型独立应用实践-3-大模型解决不了一切 – 人人都是产品经理, AI给我干哪来了 – 人人都是产品经理 AI时代,大厂重回PC战场 – 人人都是产品经理, 降价只是第一步,DeepSeek 真正要做的事比你想象的大得多 – 人人都是产品经理, 用户分群分析:为什么同一个活动,不同用户反应完全不同? – 人人都是产品经理, 拼多多新链接如何快速入池 – 人人都是产品经理, 【财务】自动匹配银行回单,减少出纳人工操作 – 人人都是产品经理, 企业AI Agent落地第一课:先分清“老会计”和“管培生”的活 – 人人都是产品经理, AI 产品经理手记:一份能跟模型团队 battle 的评测框架(上) – 人人都是产品经理 大模型交互的底层原理:给模型造一个临时执行环境 – 人人都是产品经理, 酒店配送机器人・软性动态场景全流程思辨复盘 – 人人都是产品经理, 工业数字化与行业软件产品,如何从客户愿意购买的商品,变成公司能持续经营的业务? – 人人都是产品经理, 小红书郑州帮打法进化成什么样了? – 人人都是产品经理, 第一个游戏项目,别急着把 AI 塞进工作流 – 人人都是产品经理, AI时代,产品经理如何设计更懂用户的大屏可视化产品 – 人人都是产品经理, 寻找Token之上的硬资产:2026年AI应用层的去泡沫与范式转移 – 人人都是产品经理, 会计引擎原理及流程 从传统 PM 到AI PM,我们如何用一套框架复盘自己的项目(四步法),让面试官能认可和点头 – 人人都是产品经理, HarmonyOS 6.0/6.1 核心新特性:空间、智能、全场景全面革新 – 人人都是产品经理, 最近几个月的AI大模型独立应用实践-2-岗位已经模糊 – 人人都是产品经理, 最近几个月的AI大模型独立应用实践-2-岗位已经模糊 – 人人都是产品经理, 从0到量产:汽车IPD全流程落地实战案例(内含阶段详解) – 人人都是产品经理, AI评测如何避坑?从信息聚合到独立标准的产品逻辑 – 人人都是产品经理, AI互联网日报:DeepSeek调用量登顶/小米新机或新增AI键/Google伙伴Xreal继续押注智能眼镜 – 人人都是产品经理, 小红书博主管理与深度链接 – 人人都是产品经理, 企业经营分析・财务指标全景地图 – 人人都是产品经理, AI用户体验要素三:“Agent to UI”设计组件新范式 – 人人都是产品经理, DTC 衰落,网红品牌大衰退 – 人人都是产品经理, AI生产力:从效率到工作流重构 – 人人都是产品经理, LinkedIn废掉APM那天,我撕掉了团队的产品经理招聘JD – 人人都是产品经理,
视频创作这件事, 可能今年内就会被大模型折叠掉 – 人人都是产品经理,
流窜AI · 2026-05-28 · via 人人都是产品经理

AI从文字助手进化到能直接修改视频的创作执行者,Google最新发布的Gemini Omni正重塑人机交互的边界。本文将深度解析多模态AI如何打破创作门槛,让普通人也能轻松实现复杂视频编辑,并探讨这一技术突破对内容创作生态带来的深远影响。

AI不只是会说话了,它开始动手了

过去几年,我们对AI的期待,基本都停留在“让它帮我说点什么”。

写文章、写脚本、写邮件、改文案、做总结。

这些能力当然有用,但它们本质上都发生在文字世界里。

你输入一段话,AI输出一段话。

最多再进一步,它能看图、能听音频、能理解一段视频,然后给你一个文字回答。

但现在,事情开始变得不一样了。

在 Google I/O 2026 上,Google 推出了 Gemini Omni。

它最值得关注的地方,不是“又来了一个视频生成模型”,而是它把AI的能力从“理解内容”往前推了一步:

AI不只是看懂视频,它开始能直接改视频了。

这件事听起来像是一个功能更新,但背后其实是一次很重要的人机交互变化。

以前,我们要完成一个视频创意,必须学会剪辑软件。

现在,越来越多任务可能只需要一句自然语言指令。

你说:“把背景换成城市夜景。”

你说:“让这段视频更有电影感。”

你说:“把情绪从压抑改成温暖一点。”

AI不再只是回答你“可以怎么做”,而是开始真的替你做。

01 Omni的关键,不是“全能”,而是“打通”

Omni这个词,本身有“全部、全方位”的意思。但如果只把它理解成“什么都能做”,反而容易把重点看偏。

Gemini Omni真正值得关注的地方,在于它试图把文字、图片、音频、视频这些原本分散的能力,放进同一个理解和生成框架里。

过去的AI系统,更像是一组分开的工具箱:

  • 文字模型负责写文案;
  • 图像模型负责生成图片;
  • 语音模型负责听声音;
  • 视频模型负责生成短片。

每个工具都能用,但它们之间并不总是能顺畅协作。

比如你给AI一段视频,再告诉它:

“保留人物动作,但把背景换成下雨天的街道,音乐也变得安静一点。”

这不是一个简单的文本任务。

它同时涉及画面理解、人物识别、背景替换、声音风格、情绪判断,还要保证修改后的结果看起来是连贯的。

传统工具通常要拆成好几步:

先抠像,再换背景,再调色,再配乐,再重新导出。

而 Gemini Omni 想解决的,就是把这些步骤尽量压缩成一次对话。

换句话说,它不是单纯在“新增功能”,而是在尝试打通创作流程。

这才是Omni最重要的信号:

AI正在从单点能力,走向跨模态协作能力。

02 多模态AI的难点,不是“识别”,而是“理解后还能操作”

很多人听到多模态,会觉得这只是AI能看图、能听音频、能识别视频。

但这只是第一层。

真正难的是:

AI能不能把不同信息放在一起理解,并且根据理解去修改它。

举个简单例子。

一段咖啡馆视频里,有两个人在聊天,背景音乐很轻,画面偏暖,整体氛围很放松。

如果你问AI:“这是什么场景?”

它回答:“这是咖啡馆里两个人交谈的画面。”

这叫识别。

但如果你说:“把这段视频的情绪改得更紧张一点。”

这就不是识别问题了。

因为“紧张”不是一个具体按钮。

它可能意味着镜头节奏更快、音乐更低沉、光线更暗、人物表情更严肃,甚至画面构图也要发生变化。

这时候,AI必须先理解“紧张”这个抽象词,和画面、声音、节奏之间有什么关系。

然后,它还要把这种理解转化成具体的视频修改动作。

这就是多模态AI真正困难、也真正有价值的地方。

过去,AI更多停留在“看到了什么”。

现在,新的方向是:

看懂之后,能不能直接动手改。

这一步跨过去,AI就不再只是一个内容分析工具,而是开始接近创作执行工具。

03 视频创作的门槛,正在被重新定义

视频是最能体现多模态能力的场景。

因为一条视频里,不只有画面。

它还有声音、人物、动作、环境、字幕、节奏、镜头、情绪。

这也是为什么传统视频剪辑的学习门槛一直很高。

  • 你想改一个背景,可能要懂抠像。
  • 你想让画面更有电影感,可能要懂调色。
  • 你想让节奏更紧凑,可能要懂时间轴和剪辑点。
  • 你想让音乐配合情绪,还要懂音频和节奏。

一个普通人有创意,并不代表他能把创意做出来。

这就是过去内容创作里很现实的一道门槛:

想法属于人,但执行能力属于工具熟练者。

Gemini Omni这类模型的意义,就在于它开始把一部分执行能力交还给普通人。

你不需要先学习一整套软件操作逻辑,才能表达你的想法。

你只需要说清楚你要什么,AI就尝试把它转化成可见的结果。

这件事的本质,不是“AI替代剪辑师”。

更准确地说,是创作链路被重新分层了。

专业创作者依然会有优势,因为他们知道什么是好镜头、好节奏、好叙事。

但普通人也第一次有机会绕过复杂工具,直接进入创意表达本身。

这会带来一个很明显的变化:

未来内容创作的竞争,可能不再只是谁更会操作软件,而是谁更会表达意图、设计创意、判断结果。

04 这不是工具界面升级,而是交互方式变化

有人可能会说:

“这不就是把剪辑软件的按钮,换成聊天框了吗?”

表面看,确实有点像。

但真正的变化不在界面,而在谁去适应谁。

传统软件的逻辑是:

工具已经设计好了,你要学习它的菜单、按钮、参数、快捷键,然后把自己的想法翻译成机器能执行的操作。

所以很多人不是没有创意,而是卡在了工具门口。

自然语言交互的逻辑刚好反过来:

你先用人的语言表达想法,工具再把你的想法拆成可以执行的动作。

这就是从“人适应机器”,转向“机器理解人”。

当然,这并不意味着一句话就能生成完美作品。

AI仍然会误解,也会生成不稳定的结果。

你仍然需要判断、筛选、修改、迭代。

但门槛确实变了。

以前你必须先学工具,才能开始创作。

现在你可以先开始创作,再在过程中逐步学习如何把需求说清楚。

这个变化很重要。

因为一旦创作门槛下降,就会有更多原本不参与创作的人进入内容生产。

老师可以更容易做课程视频。

小商家可以更快做产品展示。

自媒体作者可以把文字内容变成短视频。

普通人也可以把脑子里的画面表达出来。

AI的价值,不只是替专业人士提效。

它也可能让更多非专业人士拥有表达能力。

05 Google的布局:不是发一个模型,而是把它放进使用场景

一个AI模型能不能真正改变工作流,关键不只看模型本身,还要看它被放在哪里。

这次Google比较值得注意的一点是,Gemini Omni并不是只作为一个实验室Demo出现。

从官方信息看,Gemini Omni Flash已经进入 Gemini App、Google Flow、YouTube Shorts Remix 和 YouTube Create 等场景。

这几个入口对应的用户并不一样。

  • Gemini App更偏日常助手。
  • Google Flow更偏创作者工作流。
  • YouTube Shorts更偏大众短视频创作。
  • YouTube Create则更接近移动端轻量创作工具。

这说明Google不是只想展示技术,而是想把多模态生成和编辑能力,直接塞进用户已经在使用的产品里。

这一步很关键。

因为大多数普通用户不会专门去研究一个模型。

他们只会在某个具体任务里感受到:

  • 这个功能能不能帮我省时间?
  • 能不能让我做出以前做不出来的东西?

如果答案是肯定的,技术才算真正进入生活。

另外,Google也提到,相关能力会继续通过API开放给开发者和企业客户。

这意味着,Omni未来不一定只存在于Google自己的产品里,也可能被集成进教育、电商、营销、企业培训等更多行业工具中。

当然,这些场景真正跑通,还需要时间。

但方向已经很清楚:

多模态AI正在从“看起来很厉害的展示”,进入“可以嵌入工作流的能力”。

06 从工具到智能体,AI正在补上“动手能力”

过去我们说AI像助手,其实更多是在说“文字助手”。

它能帮你想标题,帮你写大纲,帮你总结资料,帮你润色表达。

但它很少直接进入真实生产环节。

  • 你要做图,还是要打开设计工具。
  • 你要剪视频,还是要打开剪辑软件。
  • 你要做广告,还是要找素材、写脚本、剪片子、调细节。

AI主要负责“出主意”,真正执行还得靠人。

现在的变化是,AI开始向执行层靠近。

  • 它不只是告诉你该怎么改,而是直接参与修改。
  • 它不只是帮你描述画面,而是尝试生成画面。
  • 它不只是分析视频结构,而是开始编辑视频结构。

这就是AI从工具走向智能体的一个关键变化。

工具是被动的。

你必须知道每一步怎么操作,它才会执行。

智能体更接近合作伙伴。

你告诉它目标,它会理解任务、拆解步骤、调用能力,然后给你一个结果。

Gemini Omni代表的,不只是视频生成能力升级。

它代表的是AI开始补上“动手做事”的能力。

当AI既能理解你的意图,又能直接操作内容,很多工作流就会被重写。

07 但越是强大的创作工具,越需要人的判断

讲到这里,很容易走向一种过度乐观的结论:

以后是不是只要一句话,就能做出所有内容?

还没到那一步。

至少现在看,AI视频生成和编辑依然有不少限制。

  • 它可能理解错你的意图。
  • 它可能在细节上不稳定。
  • 它可能生成看似高级、但缺少真实表达的画面。
  • 它也可能让大量相似风格的内容涌入平台。

所以,越是强大的工具,越需要人的判断。

未来真正有竞争力的创作者,不一定是最会操作软件的人,但一定是更会判断结果的人。

  • 你要知道什么样的画面是好的。
  • 你要知道什么样的节奏适合你的内容。
  • 你要知道什么样的表达能打动你的观众。
  • 你还要知道什么时候该相信AI,什么时候该推翻重来。

AI会降低执行门槛,但不会自动带来好内容。

它能帮你更快抵达一个结果。

但这个结果有没有价值,仍然取决于人。

这也是为什么我更愿意把 Gemini Omni 看成一种“创作放大器”,而不是“创作者替代品”。

它放大的不是空白,而是人的想法、审美、判断和表达能力。

写在最后

技术真正改变世界的时候,往往不是因为它看起来多么炫酷,而是因为它让更多普通人,第一次拥有了原本不属于自己的能力。

过去,创作常常是一件有门槛的事。

  • 你有一个想法,不代表你能把它剪成视频;
  • 你有一个画面,不代表你能把它做成广告;
  • 你有一个故事,不代表你能把它表达给更多人看见。

很多时候,我们缺的不是想法,而是把想法变成作品的能力。

而多模态AI正在改变这一点。

当AI能听懂音频、理解视频、看懂画面,并根据一句自然语言直接完成修改时,它降低的不只是工具门槛,也是在释放更多人的表达欲。

这或许才是Gemini Omni这类模型最值得关注的地方。

本文由 @流窜AI 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议