惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Application and Cybersecurity Blog
Application and Cybersecurity Blog
S
Securelist
K
Kaspersky official blog
Scott Helme
Scott Helme
C
CXSECURITY Database RSS Feed - CXSecurity.com
GbyAI
GbyAI
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
C
Cisco Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - Franky
Security Latest
Security Latest
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Y
Y Combinator Blog
T
Threat Research - Cisco Blogs
L
LINUX DO - 热门话题
C
Cyber Attacks, Cyber Crime and Cyber Security
Project Zero
Project Zero
Cisco Talos Blog
Cisco Talos Blog
月光博客
月光博客
I
Intezer
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
人人都是产品经理
人人都是产品经理
L
Lohrmann on Cybersecurity
Recorded Future
Recorded Future
Latest news
Latest news
V2EX - 技术
V2EX - 技术
T
The Exploit Database - CXSecurity.com
H
Heimdal Security Blog
F
Fortinet All Blogs
Cloudbric
Cloudbric
IT之家
IT之家
博客园 - 叶小钗
Microsoft Security Blog
Microsoft Security Blog
P
Proofpoint News Feed
博客园 - 司徒正美
Apple Machine Learning Research
Apple Machine Learning Research
PCI Perspectives
PCI Perspectives
AWS News Blog
AWS News Blog
H
Help Net Security
S
Security @ Cisco Blogs
酷 壳 – CoolShell
酷 壳 – CoolShell
Recent Announcements
Recent Announcements
Hacker News - Newest:
Hacker News - Newest: "LLM"
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
F
Full Disclosure
S
Schneier on Security
S
Security Affairs
T
Tenable Blog

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
Sora终于来了,但多模态AI呼唤实用主义
硅星人 · 2024-12-15 · via 人人都是产品经理

这篇文章深入探讨了多模态AI技术的现状与未来,特别是在OpenAI发布全新视频生成模型Sora Turbo之后。作者分析了Sora在实际应用中的局限性,指出其在视频时长、生成效果一致性以及指令遵循方面的不足

一、Sora的现实问题

随着ChatGPT等大语言模型的问世,人工智能进入了一个全新的时代。在这股浪潮中,多模态AI技术成为业界竞相追逐的目标,OpenAI的Sora更是将这股热情推向高潮。

等待了299天之后,屡次跳票的Sora终于来了,OpenAI在北京时间12月10日凌晨正式发布了全新视频生成模型Sora Turbo。

然而,从实测的效果来看,Sora的效果并没有带来太多惊喜,无论是在视频时长、生成效果一致性、还是指令遵循方面,都没有明显强于市面上的已有视频模型。

事实上,Sam Altman将Sora比作视频版GPT-1的说法其实暴露了这个项目的尴尬处境。因为GPT-1更像是一种实验性模型,不太适合作为直接可用的生产工具,它主要被用作科研领域的参考。

在投入大量资源和时间后,Sora如果呈现的只是一个概念验证级别的产品,如果真如GPT-1一般需要经过多次迭代以及技术突破才能达到实用水平,那么考虑到视频生成所需的巨大算力投入和数据需求,这种战略选择的成本效益比恐怕令人担忧。

一边用夸张的宣传和神秘感制造期待,一边交出的却是一个并没有多少突破性进展的产品。特别是在2024年末这个时间点,当国内外竞争对手已经通过快速迭代实现了类似水平的效果,这种“落差”的表现略显尴尬。

不可否认,Sora的发布代表了多模态AI技术的重要里程碑。它展现了一个“会预测未来”的AI系统的雏形,让人们对通用人工智能(AGI)的到来充满期待。只不过,这次OpenAI已经不再将Sora称为“世界模拟器”了。

关于Sora的技术局限性的争论由来已久,例如,Sora在生成视频时常出现逻辑错误,如物体运动不符合物理规律、因果关系混乱等问题,现在的Sora Turbo显然也没有解决这一问题。早在年初,Meta首席科学家杨立昆就直言,Sora的生成式技术路线“注定失败”,因为其依赖于大规模数据训练的概率模型,无法真正理解物理世界的因果关系。此外,Sora的生成过程更多是对已有数据的拟合,而非创造新知识,这使其在模拟真实世界方面仍有很长的路要走。

梦想总归要回到现实,除了技术成熟度,Sora在产业化方面还存在诸多挑战:

首先,Sora的训练和应用成本极其高昂。据Factorial Funds估算,如果Sora要大规模应用,还需要约72万片英伟达H100 GPU的支持,这意味着216亿美元的硬件投入。如此天价的算力消耗,让Sora很难在短期内实现商业闭环。

其次,Sora在落地场景方面尚不成熟。尽管Sora已经正式发布,但在效果上离真正的“世界模拟器”差距甚远,现阶段更像是一个玩具而无法成为一个真正实用的创意工具。可以说,Sora离真正的“iPhone时刻”还有相当长的路要走。

就像上世纪60年代的核聚变发电:展示出令人震撼的潜力,吸引了大量投资和顶尖人才,但随着研究深入,技术难度和资源投入却呈指数级增长。虽然每隔几年就有突破性进展的报告,但要实现真正可控、稳定的商业应用,始终像隔着“永远差30年”的距离。

所以,如今的Sora面临这样一个困境:在完美的演示视频背后,是否存在不可逾越的技术瓶颈?这种追求完美视频生成的路径,会不会最终被证明是一个代价高昂的技术死胡同?要将实验室的演示转化为真正有价值的应用,可能比我们想象的要困难得多。

对此,百度创始人李彦宏在最近接受采访时曾表示:“如果真的能够做到任意场景下视频生成,那可能要很长很长时间,而且成本很高。”由此可见,百度并非不重视Sora所代表的技术方向。只是基于务实的判断,选择了另一条路线。

二、“应用驱动”成为第一性原理

与许多厂商专注于打造Sora这样的通用文生视频模型不同,百度智能云的着眼点在于帮助客户实现多模态应用的落地。正如李彦宏所言,“我们更关心怎么帮用户把应用跑起来”。事实上,在众多行业客户的实际场景里,他们真正需要的是在自己的应用中拥有可靠的多模态能力,而不仅仅是一个裸的通用模型。百度智能云深谙此道,通过多年来在多模态领域的深厚积累和大量工程化实践,以更简单快捷、低门槛的方式赋能客户,让多模态应用能够开花。这也是百度暂不直接做Sora,而是聚焦应用落地的重要原因。

不做Sora,并不意味着百度在多模态AI领域缺席。恰恰相反,百度一直在多模态领域有着长期而深厚的积累,只是选择了一条应用驱动的路线。

随着当前大模型性能增长遇到瓶颈,AI正在进入“冷静期”。海外AI巨头从追求AGI转向务实路线,OpenAI尝试转向盈利性商业化运营,谷歌、微软等纷纷聚焦商业变现和产业应用,重点发展To C业务、企业服务和开发者生态。

正如历史上的典型的技术周期:高期望→泡沫→冷静期→务实应用。行业需要从“技术优先”的逻辑切换到“应用优先”的轨道,通过实践中反馈的需求和问题为技术发展指明方向。

那么,什么是“应用驱动”?简而言之,就是从真实应用场景出发,梳理AI落地的关键问题,并聚焦资源予以解决,最终让技术产生实际价值。这有别于动辄“颠覆性创新”、追求酷炫Demo的做法。在李彦宏看来,“我更多希望尽早接触场景及接触应用,看在这个过程当中,到底遇到了什么问题,把这些问题带回来,我们综合一下,看大家遇到的最多的问题,就是我们优先解决的问题。”

这种理念,与当年云计算之于互联网的关系有着异曲同工之妙。回溯历史,正是得益于云计算平台在基础设施层面的支撑,互联网企业才能将更多的精力聚焦在业务创新上,加速用户需求与技术能力的迭代融合,最终催生出一个繁荣的应用生态。

如今,百度智能云正是希望在多模态AI领域扮演这样一个“助推器”的角色。通过在算力、平台、安全等多个维度提供支持,让更多的企业和开发者无需在复杂的模型训练、部署、应用开发上“翻山越岭”,而是专注于挖掘行业需求、打造可用的智能化应用,让多模态AI从实验原型逐步发展为日常工具。

站在这个思路上审视多模态AI,就不难理解百度智能云的战略选择。在多模态AI落地的过程中,有两大关键挑战亟待攻克:一是实现更自然的人机交互,二是提高模型的可控性、尽可能消除幻觉。单纯的视频生成模型虽然看上去很酷,但还难以很好地解决这两大问题。反而是在一些垂直领域,用更简单实在的多模态技术,就能让AI先跑起来。

比如在工业质检领域,结合图像识别和文本描述的多模态系统已经能准确找出产品瑕疵并生成详细的检测报告;又如在医疗影像诊断中,将X光片、CT等图像与病历文本结合分析的方案,已经在多家医院实现规模化应用。这些看似日常的应用,才是AI真正创造价值的开始。

这正是百度多年来在多模态AI领域的投入方向。李彦宏强调,“外界有一种误解就是百度不做Sora,就等于是百度不做多模态。我们非常非常看好多模态,我们也在多模态上有非常长期的多年投入,在真正有应用场景的地方,我们的多模态能力是非常强的。”

三、多模态AI的“地基”

多模态AI的门槛高、难度大,这是业界公认的痛点。各类模态数据的处理、模型训练的调优、推理服务的部署,每一个环节都需要大量的专业知识和工程经验。这无疑阻碍了多模态AI在更广泛行业中的应用。百度智能云是如何支撑多模态技术大规模落地的?

在模型训练层面,百度智能云的百舸计算平台实现了主流多模态大模型的全覆盖,除了支持MLLM、CogvIm2、Qwen2-VL等业界领先的多模态模型,还针对多模态训练的特点提供了一系列优化方案。其中,“多芯混训”可以兼容英伟达、昆仑等多种芯片,充分发挥芯片的异构性能,并能在万卡规模下将两种芯片混合训练下的效率折损控制在5%以内;“长上下文训练”则突破了序列长度的瓶颈,为多模态模型拓展了更广阔的应用空间;“大集群高效训练”的并行策略,进一步提高了多模态训练的效率,使万卡任务上的模型有效训练时长占比达到99.5%、端到端的性能提升30%。

在模型推理方面,百度智能云同样展现了全栈式的优势,百舸适配了各类客户场景,既支持用户自定义镜像部署,满足个性化需求;又能在英伟达、昆仑等异构芯片上实现推理服务,兼顾成本与性能;针对主流的文生图、文生视频、多模态模型,还提供了一系列加速优化方案,通过架构分离、KV Cache、负载分配等一系列加速工作,让长文本推理效率提升了1倍多。

作为一个全栈式开发平台,千帆平台提供了不同层级的开发路径。对于普通AI应用开发者新手,千帆ModelBuilder提供开箱即用的多模态能力,涵盖图像生成、理解、视频生成等热门领域。用户只需调用API接口,即可实现多模态交互,无需理会背后复杂的模型结构和训练过程。除此之外,千帆AppBuilder作为企业级应用开发平台,可以帮助客户和开发者不断降低应用开发门槛,提供丰富的多模态能力,包括文生图、图像内容理解等图片处理组件,短语音识别、短文本在线合成等语音处理组件以及数字人功能等,同时可实现多渠道对外集成分发,满足更丰富的应用需求场景。

对于追求定制化的企业用户,千帆提供灵活的定制化服务。用户可利用平台的数据处理、模型训练、推理优化等工具,构建匹配自身业务场景的多模态解决方案,支持从数据处理到模型训练的全流程开发。平台还集成了主题模型库,覆盖智能客服、数字人、知识管理等热门领域,帮助用户快速搭建行业性多模态应用。

具体来看,千帆平台提供了非常全面、灵活的多模态服务方案。如果客户需要直接使用多模态大模型,可以在千帆上一键调用包括百度文心一格、Stable Difusion、Vidu等在内的主流模型,覆盖从文生图、文生视频到图像理解等多个应用领域。如果客户希望定制化训练和微调专属多模态大模型,搭建个性化应用,千帆平台同样提供强有力的算力和工具支持。

无论是复杂模型的训练,还是大规模推理能力的实现,云服务都在背后扮演着关键角色。通过提供这些基础设施服务,百度智能云帮助开发者和企业更专注于应用创新,而不必过多关注底层技术细节。

除此之外,百度智能云还将多模态能力进一步沉淀到行业解决方案和产品中。比如在工业领域,打造了“一见”视觉大模型平台;在智能客服场景,提供多模态对话能力;在数字人领域,实现了文生3D视频。可以说,百度智能云的多模态服务已经渗透到各行各业的关键生产力环节,以更贴近需求的方式帮助企业提质增效。

四、不做Sora,是为了更多的Sora

在百度智能云支撑下,越来越多的创新企业与开发者已经汇聚于此,借“他山之石”,砌筑自己的“高楼”。

生数科技就是其中的典型代表。这家致力于多模态大模型研发的明星企业,在百度百舸平台的加持下,推出了国内首个纯自研的视频大模型Vidu。通过百舸平台超强的容错能力和训练加速能力,生数科技将Vidu训练素材渲染加速效率提升了3倍,数据拉取效率更是提升了51倍,可以说,百度为这个“国产Sora”的诞生提供了坚实的算力保障。

类似的案例还有哇嘶嗒(VAST),这家3D-AIGC领域的佼佼者同样将百度智能云视为AI创新的“压舱石”。其面世的3D内容创作工具“Tripo”备受全球瞩目,被称为3D领域的“GPT-4”。而这一切的背后,正是百舸平台在算力、成本、工程化等方面的全方位赋能,帮助VAST快速构建起强大AI基础设施,获得成熟的AI工程化能力。

当然,多模态AI生态的触角远不止于内容创作领域。以光魔科技为例,这家企业就瞄准了AIGC平台的普惠化。在百度智能云视频解决方案以及百舸平台的加持下,光魔科技推出的“白日梦AI”实现了一键式的文生视频能力,让每个普通用户都能“编出”专属影片,已经拥有大量忠实拥趸。

除了聚焦前沿技术的创业公司,百度智能云还在为百胜中国这样的“传统巨头”提供服务。依托百度智能云的大模型能力和智能客服解决方案,这家餐饮巨头打造了特色AI客服系统。该系统能够关联上下文、精准识别客户真实意图,提供更好的售后服务支持,同时还能辅助人工客服快速总结诉求、优化服务流程。这为百胜中国节省了大量客服成本,同时又提升了用户满意度。

由此可见,百度智能云正以其“地基”般的算力支持、有梯度的开发平台,为整个多模态AI生态提供源源不断的“能量”,在未来孵化了出更多的“Vidu”、“Tripo”,乃至更多的“Sora”。

五、“解决问题的AI”

对比云计算对互联网产业的变革,以AWS为例,它不仅改变了企业的IT基础设施,更重要的是催生了新的商业模式和创新企业生态。进入AI时代,多模态AI代表了人工智能从专项能力到综合认知的重要跃升,这种突破不仅体现在技术维度的拓展,更反映在应用范式的转变上。

AWS的AI时代的实践同样提供了一个很好的观察样本:在传统AI开发中,需要针对特定问题进行精心设计和训练。但在生成式AI时代,AWS认为成功的产品化之路不应局限于单一模型的性能竞争,而是要着眼于更广阔的技术组合与应用场景,更多强调“降本增效”、“实用”的AI。

技术永远只是手段而非目的本身。多模态AI正在重构传统的价值链条,这个过程中的关键在于如何将技术创新转化为可落地的解决方案,使不同规模、不同行业的企业都能找到适合自身的数字化转型路径。

特别值得关注的是,不同于过往依赖单一技术平台的垂直整合,新一代AI基础设施更强调开放协作。这种模式使得不同规模、不同行业的企业都能找到适合自身的数字化转型路径,从而让AI成为真正能够解决问题的AI。从这个角度来看,百度智能云和AWS显然站在同一战线上:通过构建开放、灵活的AI基础设施,降低技术使用门槛,让AI真正服务于产业创新。

六、结语

在全球AI竞争日益激烈的背景下,不同企业呈现出截然不同的技术路线和发展策略。这是无可厚非的,在这个仍处于摸索阶段的赛道上,技术和商业路线的多样化不仅有利于推动整个领域的创新突破,也能为不同场景和需求提供更丰富的解决方案。

市场研究和咨询公司Omdia在最新发布的报告中指出,将技术转化为可落地的解决方案同样关键。百度智能云在多模态生成式AI技术和商业成功方面展现了领导力。Omdia预计,百度智能云将继续在中国引领多模态生成式AI应用的部署和实施。

百度“应用驱动”的思路或许启示了我们:AI技术的发展不应陷入简单的技术竞赛,而是要着眼于更加可持续的商业价值和社会价值。通过深入产业、理解需求,将创新成果转化为切实可行的解决方案,从而推动技术与产业迈向下一个阶段。

作者|周一笑
本文由人人都是产品经理作者【硅星人】,微信公众号:【硅星人Pro】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。