惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Recent Announcements
Recent Announcements
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
O
OpenAI News
D
Docker
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
N
Netflix TechBlog - Medium
人人都是产品经理
人人都是产品经理
Y
Y Combinator Blog
M
MIT News - Artificial intelligence
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园 - 司徒正美
C
CXSECURITY Database RSS Feed - CXSecurity.com
阮一峰的网络日志
阮一峰的网络日志
K
Kaspersky official blog
Security Latest
Security Latest
T
Tailwind CSS Blog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
V
Vulnerabilities – Threatpost
W
WeLiveSecurity
N
News and Events Feed by Topic
aimingoo的专栏
aimingoo的专栏
美团技术团队
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Google DeepMind News
Google DeepMind News
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
C
Cyber Attacks, Cyber Crime and Cyber Security
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
B
Blog
T
The Blog of Author Tim Ferriss
Google DeepMind News
Google DeepMind News
Help Net Security
Help Net Security
爱范儿
爱范儿
宝玉的分享
宝玉的分享
腾讯CDC
H
Heimdal Security Blog
Webroot Blog
Webroot Blog
AI
AI
WordPress大学
WordPress大学
Recorded Future
Recorded Future
SecWiki News
SecWiki News
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Security Archives - TechRepublic
Security Archives - TechRepublic
Google Online Security Blog
Google Online Security Blog
C
Check Point Blog
TaoSecurity Blog
TaoSecurity Blog
Cisco Talos Blog
Cisco Talos Blog
The Cloudflare Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
博客园 - Franky
云风的 BLOG
云风的 BLOG

钛媒体:引领未来商业与生活新知

英特尔发布至强6+,芯片算力在“时间压缩”与“几何微缩”的交汇处-钛媒体官方网站 快撑不住的千亿粤派房企,开始抛售自家酒店了-钛媒体官方网站 公狗剧场≈性转版“崩老头+浪姐”÷2-钛媒体官方网站 宇树上会,机器人会成为半导体下一个超级终端吗?-钛媒体官方网站 玩家深恶痛绝的“广告”,却被厂商卖到了畅销榜TOP4-钛媒体官方网站 一个月内三破世界纪录,光伏龙头全面开启BC竞速赛-钛媒体官方网站 玻璃基板产业化进展到哪了?-钛媒体官方网站 为什么文案策划常被误解?-钛媒体官方网站 GPU抢了风头,西部数据说存储才是AI规模化的真正门槛-钛媒体官方网站 看懂十年两轮锂周期,就学会了投资这个赛道的一半-钛媒体官方网站 神药退潮,超4000亿美元肿瘤新战场谁能称王? 好品牌,开始竞争“互动率”-钛媒体官方网站 孙正义带领软银投资法国核电, 与施耐德这场合作能否突破欧洲算力的困局? 卷向流量的景区们,都在扎堆造“明星”-钛媒体官方网站 ASCO观察:全球首个+1“得福组合”重新定义大单品-钛媒体官方网站 从万播5元到7天充电15万+,AI漫剧开始重做“用户生意”?-钛媒体官方网站 营销失灵,电影们开始“碰运气”了-钛媒体官方网站 Edge AI Daily 早报(6月1日)-钛媒体官方网站 中国商业航天追赶的,从来不只是SpaceX-钛媒体官方网站 Anthropic 冲击 1 万亿:除了 Pre-IPO,还有哪些隐藏的「Claude 概念股」?-钛媒体官方网站 【钛晨报】提升全民人工智能素养,四部门最新部署;MiniMax Group Inc.:拟于科创板上市;国家统计局:5月份制造业采购经理指数(PMI)为50.0%-钛媒体官方网站 赢家亏本转让,输家如愿接盘?山高环能的蹊跷“便宜”不好捡-钛媒体官方网站 阿里"上货",字节"练功"-钛媒体官方网站 260亿美元,“全华班”撑起全球AI编程估值最高公司-钛媒体官方网站 加入“清华圈”,黄仁勋放不下中国-钛媒体官方网站 东方甄选布仓、辛巴开超市:中小玩家分层应战-钛媒体官方网站 “爸爸品牌”,正在集体自救-钛媒体官方网站 618暗战已开,除了低价,大家还在“卷”什么-钛媒体官方网站 监管加码补贴收紧,外卖大战落幕,但消费入口争夺战才刚刚开始-钛媒体官方网站 140万亿Token之后:中国正在修建“算力高铁”-钛媒体官方网站 暴增3100亿!存储巨头大普微,估值泡沫已现-钛媒体官方网站 一季度亏掉23亿,李想重回“苦日子”?-钛媒体官方网站 盈利没保住,小鹏品控又“翻车”-钛媒体官方网站 硅谷大裁员,韩企争红利,揭露了AI带来的“生死问题”-钛媒体官方网站 宁德时代花了30亿,为储能建了一个“风洞”-钛媒体官方网站 万科股东会只剩一个老面孔-钛媒体官方网站 小米AI的"免费获客-黑箱锁死"闭环:从100T Token到Credits陷阱-钛媒体官方网站 大模型的另一种活法,被MiniMax跑通了-钛媒体官方网站 AI写小说的套路被扒光了: Claude爱平铺,GPT总做梦,Gemini只会“他如何如何”-钛媒体官方网站 Edge AI Daily 早报(5月31日)-钛媒体官方网站 纯债基金深度掘金:2026Q1市场洞察与精选策略-钛媒体官方网站 价值判断:涨停板的投资机会和风险提示(5月29日)|证券市场观察-钛媒体官方网站 为什么价值创造,才是市值管理的核心-钛媒体官方网站 3只航空航天类股票已准备好乘上售后市场反弹的东风-钛媒体官方网站 我们看好的戴尔股票涨势惊人,我们会继续坚持持有-钛媒体官方网站 A股连续下跌,市值蒸发近40亿元,君实生物深陷合规漩涡?-钛媒体官方网站 霸王茶姬进韩国,排队188分钟,带来哪些启示? 宁德时代掏30亿建了全球第一的“储能擂台”,储能行业还有什么秘密? 小扎要和老黄“亲儿子”抢饭吃-钛媒体官方网站 Digital Quant 2026 量化交易大赛收官:真实资金、真实数据、真实竞争定义“AI 量化新标准” 中餐出海进阶:狂飙过后,该算账了-钛媒体官方网站 【数智周报】华为发表半导体韬定律,5年内冲刺等效1.4nm制程;MiniMax将A股上市;宇树科技冲刺科创板;Anthropic融资650亿美元,投后估值超OpenAI-钛媒体官方网站 “既要又要”时代,雅迪摩登解锁女性出行最优解-钛媒体官方网站 700亿融资赶紧到位吧,DeepSeek开始限制重生、修改次数了-钛媒体官方网站 铜价奔向10.5万背后: 新能源吃铜,铜也正在改变新能源的胃口 一只“死鸡”,能骗走你多少钱?-钛媒体官方网站 供应商变股东:存储芯片三巨头联手入股Anthropic,AI供应链的权力结构正在重组-钛媒体官方网站 市场不会永远低估腾讯-钛媒体官方网站 分析师观点汇总:英伟达仍是AI核心引擎;沃尔玛等五只股票受关注-钛媒体官方网站 2026上海SNEC前瞻:从“反内卷”到“反谍”,从旧范式到新生态-钛媒体官方网站 段永平,又给老家捐了1万股茅台-钛媒体官方网站 告别“邮政内循环”,中邮人寿迎来首位“外来”掌舵人-钛媒体官方网站 没有下一个泡泡玛特-钛媒体官方网站 AI 编程终于有全局视野了,3 万 Star 项目补齐最大短板-钛媒体官方网站 社区硬折扣超市狂飙的AB面-钛媒体官方网站 3小时卖爆2200万!铜师傅借“修仙”翻红,但离飞升还差几个本命法宝?-钛媒体官方网站 新茶饮“蛇吞象”,柠季洽购哈根达斯?-钛媒体官方网站 一手实测,Opus 4.8 Vs ChatGPT 5.5 Vs Kimi 2.6 ,谁最可用?-钛媒体官方网站 Anthropic估值万亿,但Claude 4.8没那么惊艳-钛媒体官方网站 Claude Opus 4.8:两个0%背后的商业逻辑-钛媒体官方网站 拿下世界杯,小红书里能不能长出另一个足球“社区”?-钛媒体官方网站 一个60亿美妆品牌决定去做药-钛媒体官方网站 全国30%的教室都需要它,江西这个“木匠窝”,何以托举教育事业的过去和未来?-钛媒体官方网站 动漫暑期档:年番保基本盘,新题材赌未来-钛媒体官方网站 新鲜零食融资百亿,零食版“蜜雪冰城”要来了?-钛媒体官方网站 从IP到AI,名创优品「十元店」的翻身仗-钛媒体官方网站 没有大厂总部,萧山凭什么抢下AI制高点?-钛媒体官方网站 《ENEMY》筹备中长剧,影视圈又从短视频「捞人」了-钛媒体官方网站 婴儿期的自变量上门保姆应该“0元购”-钛媒体官方网站 量子计算迎来“晶圆厂时刻”,谁先受益?-钛媒体官方网站 Edge AI Daily 早报(5月30日)-钛媒体官方网站 科创新源2.45亿控股东莞兆科,盈利压力凸显加码散热谋变 | 并购一线-钛媒体官方网站 China's Agricultural Robot Startup is Now Valued at over 500 Mln Yuan in Three Months After Inception-钛媒体官方网站 Hangzhou-based Dexterous Robotic Hand Startup Raises Nearly RMB 1 Billion in Six Months-钛媒体官方网站 减持与开庭赛跑,庄园牧场IPO承诺成“空头支票”,前老板携国资血亏上演罗生门-钛媒体官方网站 绿皮火车,怎么就成了3万亿的好生意?-钛媒体官方网站 尼泊尔的草,中国人的宝-钛媒体官方网站 160亿,深圳“四小龙”跑出首个IPO-钛媒体官方网站 435 万的法拉利Luce,撕掉超豪华遮羞布-钛媒体官方网站 浙江小县城“老头乐”,又要IPO了-钛媒体官方网站 Anthropic发布Claude Opus 4.8,重点是:“我不会骗你”-钛媒体官方网站 华为发布“韬(τ)定律”,重构后摩尔时代的中国技术路径-钛媒体官方网站 法拉利第一台电车,绕开了保时捷和仰望-钛媒体官方网站 被AI替代的人,和没被替代的人,差在哪?-钛媒体官方网站 疯狂的Anthropic-钛媒体官方网站 2026世界杯,为什么小红书买了,抖音没买?-钛媒体官方网站 炒币年赚80亿,以色列Biotech顿悟了-钛媒体官方网站 全球创新药最后一个万亿级未开垦市场-钛媒体官方网站 李开复背叛李开复-钛媒体官方网站 年赚27亿、复合增长62%,卖给美国人的阿麦斯凭什么逆势冲刺“中国糖果第一股”?-钛媒体官方网站
林俊旸的新公司,卖的可能不是模型,而是“想象力”-钛媒体官方网站
字母AI2026.06.17 14:42 · 来自北京全文3754字 · 2026-06-17 · via 钛媒体:引领未来商业与生活新知

文 | 字母AI

前通义千问负责人林俊旸在5月成立的新公司,连名字都还没起,只知道研究的是世界模型和具身智能,估值就已经到20亿美元了,还拿到了腾讯2000万美元的投资。

此前有人根据林俊旸的推文推断,说他现在做的是“预测”,Next State Prediction,也就是预测下一帧会发生什么。

这句话没说错,然而说了等于没说。

为什么呢?因为现在所有大模型都是在预测,预测下一个token的内容是什么。

而且如果只是状态的预测,那OpenAI的视频生成模型Sora,它其实干的也是预测各个事物的物理状态,你再开一家公司去干相同的事情,完全没有意义。

我认为,林俊旸想要卖的是一套更深的东西——想象力。

AI在行动之前,把事情在脑子里过一遍。

我给你举个例子,我让机器人去举起一个水杯,它会在脑子里想“这水杯的摩擦力是如何,我的机器手臂会不会打滑?”、“这小子是不是坑我,水杯有可能是带电的,我碰一下把我给电坏了咋办”、“万一我把水杯给摔了,把我卖了够不够赔的?”

把所有可能都想好,再去行动,整个过程,就叫做“想象力”。

你别不信,听我慢慢给你讲。

林俊旸的拼图

我们先从最基本的开始说起。

林俊旸参与过的研究非常多,最知名的肯定是M6。

M6的全称是Multi-Modality to Multi-Modality Multitask Mega-transformer,翻译过来是从多模态到多模态,多任务,巨型Transformer。

M6的核心,是把所有模态、所有任务,都塞进同一个大模型框架里。让模型不仅能处理纯文本、纯图像的单模态任务,也能处理跨模态任务,还能做文本引导的图像生成。

M6是“想象力”的起点,物理世界本身很复杂,有文字、图像、声音、空间位置、物体状态、动作过程和结果反馈。AI想要去理解这个世界,第一步就是把这些不同类型的信息放进同一个模型里处理。

林俊旸很早关心的就不是单个任务,而是如何把不同来源、不同形态的经验统一成模型可学习的格式。

光有框架还不够,你还得让模型能明白。所以就有了Qwen和Qwen-VL。

Qwen我们都很熟悉了,它可以写代码、调用API、使用工具,把一个目标拆成多步行动,并根据工具返回的结果继续调整下一步。

也就是说,Qwen让模型有了比较清楚的行动流程:先理解目标,再选择手段,再执行,再看反馈。

到了,Qwen-VL,它让AI的眼睛不只是看,还能指。看图说话大家都会,但Qwen-VL还能做grounding,把图片里的物体框出来,读图上的文字,回答“图中右下角的红色杯子在哪个位置”这种问题。

这两篇放在一起看,Qwen-VL让模型知道物体在哪,Qwen让模型知道怎么动手。

相当于是让模型从观众席,走到了赛场上。

2026年春节前后,林俊旸参与了一篇论文,名为WebWorld。这篇论文讲的是造一个假的网页世界,让Agent在里面练手。

它用超过一百万条真实网页交互数据训练了一个网页模拟器,能支撑三十步以上的长序列模拟,支持推理、多格式数据。

在当时,WebWorld的模拟质量已经能跟Gemini-3-Pro打平。并且用WebWorld合成数据训练的Qwen3-14B,在WebArena上直接涨了9.2%,性能追上了GPT-4o。

而且这套模拟能力还能跨领域泛化,代码、GUI、游戏环境都适用。

为什么要造模拟世界?因为真实世界太慢了。网页有加载延迟、有访问频率限制、有风控拦截。你让Agent在真实网页上试错一千次,可能八百次都卡在网络延迟上,剩下两百次还有一半被当成爬虫封了。

训练本身需要的是大量多样化的交互经验。既然如此那就在模型内部再造一个世界。Agent在这个虚假世界里怎么摔跟头都行,零成本,零风险。

这就是“想象力”的本质,我是为了要降低后续的风险成本,所以我现在才让机器人“大脑”内进行模拟训练,训练好了以后才能少给我闯祸。

模式有了,那我该让机器人在脑内训练什么呢?VideoAgentTrek。它做的是从人类操作视频里,自动挖出Agent可以学习的操作轨迹。

VideoAgentTrek从YouTube上扒了三万九千个屏幕录制的教程视频,全是无标注的原始视频,然后自动解析出了一百五十多万条GUI交互步骤。

这篇论文颠倒了整个认知逻辑。一般人看到教程,想到的是“我跟着学”。林俊旸看到的是训练数据。

教程视频里藏着最精准的操作轨迹,鼠标从哪移到哪、点了什么按钮、打了什么字,全是现成的标注。他想的是怎么把这种“人演示给机器看”的视频,逆向拆成“机器能学的经验”。

这个思路一旦成立,数据就取之不竭。每天有无数人在网上录教程,每一个教程都是一条隐形的训练轨迹。

说句题外话,这篇论文还有个非常有意思的地方,那就是林俊旸(Junyang Lin)和香港大学的杨俊霖(Junlin Yang)一起出现在了作者的位置。

再然后,就到了CUA-Gym。

如果你让一个Agent在模拟世界里做一百次尝试,但是没有人告诉它哪次对哪次错,那这一百次就等于白做。CUA-Gym做的事情就是自动安插一个裁判,自动出题,自动批卷。

想象力如果没有像代码那样可以被验证的奖励信号,那就是纯消耗算力。只有有了裁判、有了分数、有了回放,模拟里跑过的每一步才真正算数。要想把“想象力”放进现实里去,就得有答案、反馈和复盘的系统。

最后,或者说一切的一切,都要落到“执行”二字。因此来到了Qwen-VLA和Qwen-RobotWorld。这两篇论文是物理世界的双生子。

Qwen-VLA做了一件事,它在Qwen的基础上加了一个DiT架构的动作解码器,把文本、图像的理解直接输出为连续的动作轨迹。

为了支持不同形态的机器人,它引入了一个机器人描述符机制,换一个身体就换一个描述文本,同一套大脑不变。效果很猛,LIBERO上97.9%,Simpler-WidowX上73.7%,真实世界的ALOHA实验中76.9%的跨分布泛化。

Qwen-RobotWorld则是另一个维度,它训练了一个语言条件视频世界模型,通过860万条视频文本数据,两亿多帧画面,涵盖二十多种机器人和五百多种动作类型。

这个模型能根据当前观察和一句指令,预测未来会发生什么画面,在EWMBench和DreamGen Bench上都排到了第一。

所有研究成果连起来看,“想象力”从理念到执行,实现了完整的闭环,一环扣一环。

李飞飞和杨立昆

如果只拿林俊旸的研究来说事,可能有些站不住脚。但是如果把李飞飞和杨立昆也拉进来,你就发现一切成立了,每个人做出来的世界模型,本质上都是他们一生研究成果的终极大融合。

先说AI教母李飞飞,她从ImageNet起家,她从那时候起研究的就是“AI如何看见世界”。

ImageNet让机器学会了辨认物体,之后的二十年她都在往更深处挖,从识别走向理解,从理解走向生成,从二维走向三维。

她创立的World Labs,首款产品叫Marble,能让用户从文字、图片或视频直接生成可进入的三维场景。她的世界模型本质上卖的是一样东西,空间。一个AI可以感知、生成、编辑、交互的三维世界。

她把这个方向叫“空间智能”,说它是语言智能之后的下一个前沿。World Labs在2025年11月推出Marble,2026年2月估值已经冲到50亿美元,也融了10亿美元。

杨立昆也是做世界模型的,但是他的世界模型和李飞飞的世界模型是根本上的两个物种,究其原因是他俩的研究方向不同。

杨立昆从自监督学习出发的,他的核心执念是让AI不靠海量标注数据,像人一样通过观察来理解世界。他的JEPA架构不生成像素,转而在潜空间里预测世界的抽象状态变化。

V-JEPA 2用了一百万小时互联网视频做预训练,然后加上不到62小时的机器人视频,就能让Franka机械臂在零样本条件下完成拾取放置。

2026年3月,杨立昆发布了世界模型LeWorldModel,把端到端的JEPA稳定训练做到了只用两个损失项,一千五百万参数在一张GPU上跑几个小时就能做规划。

杨立昆的世界模型卖的是基于逻辑推演的认知结构。他要让AI在潜空间里理解世界如何演化,不靠背语言、不靠记模式。他对世界模型的理解就成了“AI怎么理解看见的东西”。

比如这有一把椅子,它不能凭空出现,它得立在地面上才站得住。那么通过椅子的质量,就能推演出地面给了多少支撑力。

所以,这也是为什么我觉得,“想象力”比“世界模型”更接近林俊旸这家公司的真实命题。世界模型只是工具,真正值钱的,是让机器少用现实犯错的能力。