惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Stack Overflow Blog
Stack Overflow Blog
WordPress大学
WordPress大学
罗磊的独立博客
S
Secure Thoughts
Schneier on Security
Schneier on Security
博客园 - Franky
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
爱范儿
爱范儿
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Hacker News: Ask HN
Hacker News: Ask HN
PCI Perspectives
PCI Perspectives
Google DeepMind News
Google DeepMind News
S
Security Affairs
SecWiki News
SecWiki News
博客园 - 聂微东
Security Archives - TechRepublic
Security Archives - TechRepublic
Google Online Security Blog
Google Online Security Blog
H
Heimdal Security Blog
S
Security @ Cisco Blogs
Engineering at Meta
Engineering at Meta
C
CXSECURITY Database RSS Feed - CXSecurity.com
Cloudbric
Cloudbric
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
V
Visual Studio Blog
P
Proofpoint News Feed
Project Zero
Project Zero
T
Threat Research - Cisco Blogs
Webroot Blog
Webroot Blog
Blog — PlanetScale
Blog — PlanetScale
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
W
WeLiveSecurity
Last Week in AI
Last Week in AI
月光博客
月光博客
Microsoft Azure Blog
Microsoft Azure Blog
M
MIT News - Artificial intelligence
有赞技术团队
有赞技术团队
S
Securelist
GbyAI
GbyAI
Application and Cybersecurity Blog
Application and Cybersecurity Blog
C
CERT Recently Published Vulnerability Notes
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Cyberwarzone
Cyberwarzone
B
Blog RSS Feed
P
Palo Alto Networks Blog
H
Hacker News: Front Page
D
Docker
雷峰网
雷峰网
Latest news
Latest news
Microsoft Security Blog
Microsoft Security Blog

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
不做Sora背后:百度的多模态路线是什么?
量子位 · 2024-11-18 · via 人人都是产品经理

在人工智能的浪潮中,百度以其独特的多模态技术路线,引领行业探索AI的深度应用。本文深入解析了百度在AI领域的战略选择,特别是在面对“百模大战”和视频生成技术风潮时,百度如何坚持其技术理念,通过iRAG技术解决AI领域的“幻觉”问题,并在多模态技术的发展上走出自己的道路。

当ChatGPT掀起国内“百模大战”,百度率先交卷文心一言。

Sora再掀视频生成风潮,却传出李彦宏内部讲话“Sora无论多么火,百度都不去做”。

一时间,困惑、不解、争议,纷至沓来。

面对这些声音,在刚刚结束的百度世界大会会后采访中,李彦宏公开回应。

他不仅重申了不做Sora的决定,并且说明了百度是如何运用和发展多模态的。

在大会发布中,李彦宏发布了百度从年初开始重点攻克的iRAG技术,这项技术旨在解决AI领域最棘手的”幻觉”问题。有趣的是,这个开始正好是在Sora风正热之时。

百度的选择背后原因,到底是什么?

△百度2024世界大会现场

一、加速解决幻觉问题

先从iRAG技术看。它所解决的是图片生成的幻觉问题。

在年初,不做Sora,转头将资源放在幻觉解决上。为什么?

结合这届百度世界大会主题“应用来了”来理解:

幻觉已经成为制约大模型应用大规模落地的一大绊脚石。

现代社会对计算器已有绝对的信任,只要保证输入是对的,就可以百分百放心地把计算结果用到下一步工作流程中。

但对于已知可能存在幻觉的大模型来说,还敢给予同等的信任吗?

△新版文小言APP绘图

有幻觉,即意味着模型行为不完全可控,不能完全放心的自动化工作流程,依然需要人工介入。

AI应用正面临这样的困境。

事实上,ChatGPT问世之后,大模型的几个主要改进方向都是通过不同方式来解决大模型幻觉问题。

长上下文窗口,让模型获取更完整的输入,减少因信息不全产生的错误推理。

RAG(检索增强生成),检索外部知识库补充信息,弥补模型参数存储知识的不足。

联网搜索,获取实时、动态的在线信息,扩展模型的知识边界。

慢思考,通过分步推理减少直觉性错误,提高推理过程的可解释性。

甚至从某种意义上说,多模态技术也是让模型多一种信息输入途径,不用在“看不见”视觉信息的情况下为了完成任务凭空编造。

……

所以再次总结一下,为什么解决幻觉问题是目前AI行业的当务之急?

从技术层面,不解决幻觉问题就难以预测和控制模型的行为边界。

从应用的角度来看,幻觉问题阻碍了用户对AI产品的信任。

从产业角度,解决了幻觉问题才能扩大AI可应用的场景范围,提高AI系统的商业价值。

再将目光转向百度,解决AI幻觉问题,恰恰也是百度的“主战场”。

iRAG,全称Image-based Retrieval-Augmented Generation,是一种全新的检索增强文生图范式,结合了百度多年的搜索积累,帮助大幅提升图片的生成可控性和准确性。

其核心是将百度搜索的亿级图片资源与文心大模型的生成能力相结合,通过联合优化,让生成图片更加真实可信。

△百度2024世界大会现场

具体而言,iRAG先利用检索模块在海量图库中找出与文本描述最相关的若干图片,然后提取其视觉特征,与文本特征一并输入到生成模块。生成模块在此基础上,对图像进行理解、重组、创新,最终输出高质量、符合需求的全新图片。

△文心大模型生成的大众揽巡汽车飞跃长城

可以说,iRAG巧妙地将认知智能(检索)与生成智能(创作)结合在一起,取长补短,相得益彰。

一方面,海量图像的参考让生成更”接地气”,大幅减少了幻觉、违禁内容等问题。

另一方面,强大的生成能力让输出图片更多样、更具创意,远非单纯的拼贴、修改那么简单。

更重要的是,iRAG在诸多行业领域都具有广阔应用前景,尤其能显著降低AI生图的创作成本。比如在影视制作、动漫设计中,iRAG可实现从文本脚本直接生成高质量的分镜、概念图,大幅减少中间环节的人工干预。

二、多模态,不止Sora一条路

明确了幻觉问题是AI行业的优先级,百度还需要回答另一种质疑:多模态已经是公认迈向AGI的重要一步。

多模态有助于增强AI系统的感知和理解能力。通过处理视觉、语音、文本等不同模态的信息,AI可以更全面地感知环境,增强其认知和交互能力,与人类通过多种感官认知世界保持一致。

但这里要明确的是,Sora路线并不能代表多模态技术的全部。

首先,投入做Sora代表的通用视频生成模型投入的成本非常高昂。市场研究机构Factorial Funds报告估算,Sora模型至少需要在4200~10500块英伟达H100 GPU上训练1个月。而如果Sora得到大范围应用,为了满足需求,需要约72万张Nvidia H100 GPU,如果按照每片英伟达H100 AI加速卡3万美元成本计算,72万片需要216亿美元。

而目前通用视频生成模型在技术成熟度上距离iPhone时刻也还有较远的距离。此前与艺术家合作短片《Air Head》后来就被指出实际有大量人工参与,估算只有约1/300的AI素材用到了最终成片里。

△图源fxguide.com

目前市场视频生成应用从短剧内容生产到影视特效制作,很多努力都在摸索视频生成技术的想象空间,但尚未形成成熟的商业化方案和稳定的营收模式。

其实,对于做多模态来说,也存在Sora之外的多种路径。‍‍‍

Meta首席科学家、图灵奖得主Yann LeCun就一直坚持“世界模型”路线。他认为生成视频的过程与基于世界模型的因果预测完全不同,通过生成像素来对世界进行建模是一种浪费,注定会失败。

斯坦福教授李飞飞则看重具身智能,她认为AI仅仅看是不够的,“看,是为了行动和学习”。比如通过大语言模型,让一个机器人手臂执行任务,打开一扇门、做一个三明治以及对人类的口头指令做出反应等。

百度对多模态技术的理解,最近也在数字人场景得到集中体现。

百度从2019年起就开始布局数字人领域,涉及语音克隆、唇形同步、表情动作捕捉等一系列关键技术。到如今百度“曦灵”数字人、“慧播星”数字人已广泛应用于新闻播报、直播电商等场景。

△百度慧播星电商数字人

正如李彦宏强调的,百度不做Sora,并不意味着在多模态赛道上缺席了。

数字人语音与口型、动作的同步问题,或许最终可以靠通用场景下的视频生成实现,但需要很长时间,成本很高。

但既然可以用更简单、成本更低的方法做到,为什么不先把业务跑起来呢?

首先,通用方案追求”大而全”,试图用单一模型覆盖所有场景,但这在技术上尚不成熟,往往带来效果的参差不齐;而数字人聚焦特定垂直领域,可以更精准地优化模型,追求极致的人机交互体验。

其次,视频生成好就是固定的素材了,缺乏实时交互能力;而AI驱动的数字人却可以实现动态多轮对话,甚至还可以根据用户反馈实时调整状态,更加契合真实应用的需求。

最后,视频生成对算力和数据的要求极高,当前能够真正驾驭的企业凤毛麟角,商业化进程困难重重;相比之下,数字人技术门槛相对较低,且应用场景清晰,更容易形成可复制的商业模式,开启数据飞轮。

三、AI大规模落地需要什么条件?

不论是投入解决图片幻觉问题,还是从业务需求出发发展多模态的路线,百度的目标似乎都围绕着李彦宏所说的:让技术被更多人用起来。

李彦宏这段时间不断强调的一个观点是“模型本身不产生直接价值”,只有在模型之上开发各种各样应用,在各种场景找到所谓的PMF,才能真正产生价值。

百度需要做的,是为个人和企业提供开发应用的基建,帮助更多人、更多企业打造出数百万“超级有用”的应用。

长远来看,幻觉问题的解决为行业应用消除了障碍,使得AI技术能够在更广泛的领域得到应用和推广。

用业务需要的多模态技术支持业务先跑起来,能让更多的AI应用场景为大家所用。

同时,大量的行业应用所产生的数据,又能为AGI的发展提供丰富的养分,形成良性循环,推动数据飞轮的高速运转,从而加快我们迈向AGI的步伐。

本文由人人都是产品经理作者【量子位】,微信公众号:【量子位】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。