惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

D
DataBreaches.Net
O
OpenAI News
U
Unit 42
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Microsoft Security Blog
Microsoft Security Blog
博客园_首页
博客园 - Franky
H
Hackread – Cybersecurity News, Data Breaches, AI and More
博客园 - 叶小钗
Hugging Face - Blog
Hugging Face - Blog
V
Visual Studio Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
量子位
博客园 - 司徒正美
大猫的无限游戏
大猫的无限游戏
Microsoft Azure Blog
Microsoft Azure Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Apple Machine Learning Research
Apple Machine Learning Research
人人都是产品经理
人人都是产品经理
爱范儿
爱范儿
小众软件
小众软件
腾讯CDC
G
Google Developers Blog
博客园 - 【当耐特】
F
Fortinet All Blogs
阮一峰的网络日志
阮一峰的网络日志
S
SegmentFault 最新的问题
Martin Fowler
Martin Fowler
酷 壳 – CoolShell
酷 壳 – CoolShell
Vercel News
Vercel News
Stack Overflow Blog
Stack Overflow Blog
博客园 - 聂微东
C
Check Point Blog
罗磊的独立博客
Jina AI
Jina AI
WordPress大学
WordPress大学
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
A
About on SuperTechFans
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
J
Java Code Geeks
Y
Y Combinator Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
IT之家
IT之家
B
Blog
有赞技术团队
有赞技术团队
GbyAI
GbyAI
Last Week in AI
Last Week in AI
V
V2EX
月光博客
月光博客
宝玉的分享
宝玉的分享

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
解构多模态:跨越从“看懂”到“行动”的惊险一跃
高乐 AI · 2026-01-20 · via 人人都是产品经理

多模态AI远不止是'能看懂图的聊天机器人',它正在将AI从抽象符号处理者转变为具象世界的理解者与行动者。这篇文章深度拆解了从感知融合到理解推理,再到具身智能的完整演进路径,揭示了多模态如何重构人机交互范式,以及产品经理在这场变革中需要扮演的全新角色。

最近和朋友聊天,发现大家对多模态的印象,基本都停留在“能看懂图的聊天机器人”这个层面。你给它一张图,它能给你讲个故事,或者你问它图里有什么,它能回答你。这没错,但这只是冰山一角,甚至可以说,这是一种普遍的误解,把一个可能重塑我们与世界交互方式的革命,看成了一次简单的功能升级。

我作为天天跟这些东西打交道的AI产品经理,心里总觉得有点憋屈,觉得这事儿没那么简单。多模态的真正威力,根本不在于让AI“会说话”或者“会看图”,而在于它正在把AI从一个处理抽象符号的“文科生”,变成一个能理解具象世界物理信息的“理科生”,甚至“工科生”。

你想想,我们人类是怎么理解世界的。我们看到一朵花,不仅是“看到”这个视觉信号,还会闻到它的香味,触摸到它花瓣的质感,听到风吹过花丛的声音,甚至联想到某个浪漫的瞬间。这才是完整的“理解”。

多模态要做的,就是让AI拥有这种跨越不同感官信息,形成统一认知的能力。它的终极目标,不是停留在“理解”层面,而是要跨越从“理解”到“执行”的鸿沟,让AI能够直接对物理世界进行交互和操作。

所以,别再把多模态当成聊天机器人的新皮肤了,它是一场关于AI如何真正“走进”我们世界的宏大叙事,而我们,正处在这场叙事的开篇。

01 多模态的感知与融合——世界如何被“数字化”

要让AI走进物理世界,第一步,得让它能“感知”到这个世界。这个过程,说白了,就是把五花八门的世界信息,翻译成机器能懂的语言。这里就得先掰扯清楚几个概念,不然很容易混。

定义“模态”与“感知”

我之前看一篇关于多模态设计的思考文章,里面对这个定义讲得挺清楚的,我按我的理解复述一下。“模态”这个词,听起来很学术,其实就是信息存在的方式,比如视觉、听觉、语言、触觉这些。“感官”是我们人类接收这些模态信息的器官,眼睛看、耳朵听、嘴巴说。“媒介”是承载这些信息的载体,比如图片、声音文件、文字。

所以整个流程是:世界通过不同的“模态”呈现信息,我们通过“感官”接收,这些信息被记录在各种“媒介”上,最后AI来处理这些媒介。搞清楚这个关系,你就会发现,多模态AI要做的,就是模拟我们人类用多种感官协同工作的方式,去处理那些混杂在一起的图片、声音和文字。

如何“表示”世界

好,现在AI拿到了一堆图片、视频、声音文件,它怎么“看懂”呢?答案是“表示”,也就是把这些非结构化的数据,转换成机器能处理的数学形式——向量。你可以把向量想象成一个多维空间里的坐标,每个坐标都代表了原始信息在某个维度上的特征。比如,一张猫的图片,可能在“有毛”、“四条腿”、“可爱”这些语义维度上,都有特定的坐标值。

现在主流的表示方法,我看一些技术解析文章里提到了两种范式,我觉得挺有意思:

  • 一种叫“联合表示”,就是不管三七二十一,把图片、文字、声音统统扔到一个巨大的“搅拌机”里,强制它们用同一种语言说话,也就是映射到同一个向量空间。这样做的好处是简单粗暴,便于模型进行跨模态的检索和生成,比如你输入文字“一只奔跑的狗”,它就能在那个统一的空间里找到最接近的图片向量。
  • 另一种叫“协同表示”,这个就更精细一些。它承认不同模态有自己的“方言”,允许它们先在各自的小空间里自成体系,然后再通过一个“翻译官”来建立它们之间的联系。这种方式保留了每个模态的独特性,更适合做一些需要精细对齐的任务。

这两种思想,其实也反映了不同的人机交互设计哲学。“联合表示”追求的是一种无缝、统一的交互体验,而“协同表示”则更尊重不同信息渠道的差异性,允许更灵活、更定制化的交互。

如何“对齐”与“融合”

把世界表示成向量,只是第一步,真正的价值核心在于“对齐”与“融合”。单一模态的信息,价值是有限的。一张图就是一张图,一段声音就是一段声音。可一旦它们融合起来,价值就呈指数级增长。比如,视频里一个人在说话,视觉信息(口型、表情)和听觉信息(声音)一对齐,我们就能判断他是不是在假唱,或者情绪是不是真实。

这个“对齐”的过程,听起来很技术,我倒觉得它更像是一场宏大的“认知校准工程”。我之前做项目的时候就深有体会。我们想让模型学会判断一张图“有没有感觉”,这个“感觉”是什么?对人来说,这是一种直觉。对机器来说,这就是一堆像素点。我们的工作,就是把这种人类的直觉,拆解成模型可以学习的结构化标签。比如,我们会告诉模型,这种“感觉”可能来自于特定的构图方式、柔和的色调、逆光的光影效果等等。这个过程,就是把人类的认知和机器的表示进行“校准”。

这也就是为什么在这个阶段,“数据工程”往往比模型本身更关键。你喂给模型什么样的“世界观”,它就会长成什么样。没有好的数据,再强的模型也只是空中楼阁。这部分工作,说白了,枯燥、繁琐,但它决定了多模态大厦的地基有多稳固。

02 多模态的理解与推理——从“看到”到“懂得”的惊险一跃

如果说“感知”和“融合”是打地基,那么“理解”和“推理”就是在这片地基上盖起高楼大厦。这是当前技术突破最集中的地方,也是商业化应用时风险最高、最容易翻车的环节。从“看到”像素,到“懂得”像素背后的意义,这一跃,真的挺惊险的。

理解的飞跃与局限

在一些通用的、常识性的图文理解任务上,比如看图说话、识别常见物体,我们国内的顶尖模型已经不输国际先进水平了,甚至在某些中文场景下还有优势。这确实是个巨大的飞跃,说明我们的模型已经具备了基础的世界知识。

但一到专业领域,短板就暴露无遗。比如,让模型去看一张医疗影像,判断里面有没有病灶,或者分析一张复杂的工业流程图,找出异常环节。这时候,模型的表现就急转直下。为什么会这样?原因很简单,它在通用数据里“看到”过无数猫猫狗狗,但它没“见”过几张真正的CT片。它的“理解”是基于海量数据的统计规律,而不是真正的逻辑推理和专业知识。这就引出了一个很现实的问题:模型的“理解”和我们人类的“懂得”,到底是不是一回事?目前来看,还不是。

“人”作为认知裁判

这就不得不提“人”在这个环节中扮演的关键角色。很多人以为,在AI时代,人的工作就是给机器喂数据,做个“标注工”。在多模态理解这个环节,人的角色远不止于此。我们是“认知裁判”。

当模型对一张图片给出一个回答时,我们的工作不是简单地判断“对”或“错”。我们要判断的是,这个回答是“语法正确但理解偏差”,还是“真正看懂了”。举个例子,你给模型一张“一个人在悬崖边上眺望远方”的图片,问它这个人什么心情。模型可能会回答:“这个人正在看风景”。这个回答语法正确,也符合事实,但它没有“懂”。一个更好的回答可能是:“这个人可能在思考未来,也可能感到孤独和渺小”。这才是带有“理解”的回答。我们作为产品经理或者数据标注的管理者,就要引导模型去学习后者,而不是满足于前者。

更重要的是,我们要为模型的理解“定边界”。要告诉它,在什么情况下可以自由发挥,在什么情况下必须给出精确、保守的答案。尤其是在医疗、金融这些高风险领域,一个“似是而非”的理解,可能会造成无法挽回的后果。防止这种错误的理解成为模型的学习范式,是我们作为“认知裁判”最重要的责任,也是产品风险控制的核心。

系统一致性的挑战

对了,还有个事情想说,就是系统链路上的问题。当多模态能力被集成到一个真实的产品里时,它往往不是一个单一的模型在工作,而是一个级联的系统。比如一个智能客服,它可能先用一个语音识别模型把你的话转成文字,再用一个自然语言理解模型去分析你的意图,最后用一个语音合成模型把回答说出来。

这个链路上的每一个环节,都可能产生误差。语音识别错了一个字,理解环节可能就谬以千里,最后合成出来的回答就牛头不对马嘴。这种误差的层层放大效应,在多模态系统里尤其严重。因为模态越多,链路就越长,不确定性就越大。这也是为什么,单纯提升某一个模型的能力是不够的,必须从系统层面去考虑一致性和鲁棒性。这也自然而然地把我们引向了下一个话题:光“理解”还不够,AI必须学会“行动”,通过行动的结果来验证和修正自己的理解,形成一个闭环。

03 多模态的决策与行动——迈向物理世界的具身智能

聊到这里,我们其实已经触及了多模态的终极形态。如果说感知和理解是AI在“学习”这个世界,那么决策和行动,就是它开始“改造”这个世界。这就是具身智能,Embodied AI。这是多模态逻辑的必然延伸,也是这篇文章我想升华的重点。

从“数字”到“物理”

很多人把具身智能看作是AI的一个新分支,我觉得这个看法不太准确。它不是一个平行的分支,而是多模态技术树上长出来的顶端果实。它是“感知-理解-决策-行动”这个完整链条的终点。没有前面的多模态感知和理解,行动就是无源之水。没有最后的行动,所有的理解都只是纸上谈兵,无法在物理世界中得到检验和闭环。

所以,具身智能的本质,就是让AI拥有一个“身体”,让它能够通过这个身体去执行任务,去与环境互动,从而真正地、物理地存在于我们这个世界。这才是从数字世界到物理世界最彻底的跨越。

技术框架解析

具身智能听起来很科幻,但它的技术框架其实已经越来越清晰了:

  1. 第一个支柱是“感知与建模”。这就是我们前面花大量篇幅讨论的多模态感知能力,机器人通过摄像头、激光雷达、麦克风等传感器,收集环境信息,然后在自己的“脑子”里构建一个关于世界的“心智模型”。
  2. 第二个支柱是“认知与决策”。这部分,现在普遍认为大语言模型可以扮演“大脑”的角色。它负责理解任务指令,基于对环境的建模,进行推理、规划,并生成一系列需要执行的动作步骤。比如,你对机器人说“帮我倒杯水”,它的大脑就需要把这个指令分解成:找到杯子、走到饮水机旁、拿起杯子、接水、把水杯拿给你等一系列子任务。
  3. 第三个支柱是“控制与执行”。如果说大模型是“大脑”,那这部分就是“小脑”和“肢体”。它负责将大脑发出的高层指令,翻译成精确的电机控制信号,驱动机器人的手臂、腿脚去完成具体的物理动作。这个过程需要非常复杂的运动控制算法,来保证动作的平稳、精准和安全。
  4. 最后一个支柱,也是让整个系统能够不断进化的关键,是“系统集成与数据闭环”。机器人执行任务的整个过程,包括它看到的、听到的、做的,都会被记录下来,形成新的数据。这些数据又会被用来优化它的感知模型、决策模型和控制模型,让它下一次做得更好。这就是一个完整的学习闭环。

应用与壁垒

理论框架有了,实际落地怎么样了呢?其实我们身边已经有具身智能的雏形了。最典型的例子就是自动驾驶汽车,比如那些“萝卜快跑”之类的无人车。它就是一个轮式机器人,通过全身的传感器感知路况,用“大脑”决策如何行驶,用“小脑”控制方向盘和油门刹车,在真实的物理世界里执行驾驶任务。

更前沿的,就是那些人形机器人了。它们的目标是在更复杂的、非结构化的环境里,完成更通用的任务。当然,理想很丰满,现实的瓶颈也很突出。

一个核心瓶颈就是“身体”本身。高性能、低成本的核心零部件,比如灵活的机械手、高效的能源系统,目前还非常昂贵,技术也不够成熟。另一个瓶颈是“小脑”,也就是运动控制。在实验室里走走路、挥挥手还行,一到复杂多变的真实环境,比如一个堆满杂物的房间,如何保持平衡、如何灵巧地避开障碍,都是巨大的挑战。还有一个难题,是“仿真到真实”的迁移。我们可以在模拟器里训练机器人千百万次,但模拟器和真实世界总是有差距的。如何让机器人在虚拟世界里学到的“技能”,能够无缝地应用到现实中,这是一个至今没有完美解决的问题。这些壁垒,也正是未来几年,无数工程师和科学家需要去攻克的山峰。

04 趋势与展望:通往2026年的人机协同生态

聊了这么多技术细节和挑战,我们不妨站得高一点,看看未来几年,多模态技术会把我们带向何方。结合我看到的一些趋势报告和自己的观察,我感觉一条清晰的技术演进图景正在浮现。

就像《银翼杀手2049》那样的未来世界,很快就会到来。

交互范式的革命

这个演进过程,最终将带来一场深刻的交互范式革命。过去几十年,我们一直在学习如何使用机器的语言,我们学习点击、滑动、输入命令。我们作为产品经理,大部分时间都在“设计界面”,设计按钮放在哪里,流程怎么跳转。

多模态技术的发展,将彻底颠覆这一点。未来,我们将不再需要去适应机器,而是机器来适应我们。交互将回归人类最自然的状态,用语言、用眼神、用手势。到那时,产品经理的角色也会发生根本性的变化。我们可能不再是“界面设计师”,而是“认知翻译官”。我们的核心工作,是理解用户的真实意图,并将这种复杂的、模糊的、跨感官的意图,“翻译”成机器能够理解和执行的任务。我们要设计的,不再是界面,而是认知本身。

多模态,是一场关于如何“理解世界”的漫长跋涉。写到最后,想回归到最初的那个问题:多模态到底是什么?聊了这么多,从技术到应用,从现状到未来,我感觉它本质上是一场持续性的、关于如何“理解世界”的漫长跋涉。这场跋涉的核心任务,就是如何将我们人类对这个世界的多感官、整体性的认知,稳定、高效、安全地“翻译”给机器。并且,最终让机器能够基于这种翻译过来的“世界观”,在真实的物理世界中,做出“笃定”的行动。

这个过程充满了挑战,每一步都像是在走钢丝。从像素到语义,从理解到推理,从数字模拟到物理执行,每一步都是一次“惊险的一跃”。对于我们这些身处其中的互联网从业者来说,多模态绝不仅仅是一个新的技术热点或者功能模块。它是一种底层的力量,正在从根基上重塑我们设计产品的方式、我们与用户交互的方式,甚至是我们构建商业模式的方式。理解它,跟上它,甚至去引领它,可能就是我们未来几年最重要的功课。

这趟跋涉,才刚刚开始。

本文由 @高乐 AI 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供