惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

爱范儿

早报|448元,iPhone绝版配件回归/Meta用员工键鼠数据训练AI,扎克伯格:外包不够聪明/GoPro考虑出售或合并 硬件扎实,系统优化。 这次 iQOO 给玩家的,是 iQOO15T 和 iQOO Pad6 Pro 共同构成的一套兼顾方案——竞技和沉浸,可以在同一个生态里完成。 给 Gemini 完整的一生 vivo S60 系列:今天,把星星海握在手里 早报|Google发布一大波AI更新/华为五一假期领跑中国手机市场/小米YU7 GT刷新纽北纪录 新的 Gemini 3.5、Agent 产品、视频模型都来了 让 PC 真正开始「理解」人 6 月 9 日,不见不散 复古家族又添一员。 一代经典落幕。 早报|苹果开启WWDC邀请,将公布苹果AI新进展/问界M9设计师点赞理想L9内饰/国家反诈中心App上线「AI内容鉴定」 把旗舰制程下放到入门产品上,英特尔这是想开了? 用自己的信誉为车辆品质托底,是魏建军决战高端新能源的决心。 明面上算力是最关键要素?暗地里,其实是数据…… 你今天🔥Token 了吗 昊铂需要让产品被更多人知道。 但 AI 真的有「摄影眼」吗? 早报|马耳他为全民买单ChatGPT会员/卢伟冰预判年底国产直板旗舰破万元/曝苹果新Siri聊天记录可自动删除 早报|华为Mate X7官方降价1000元/Anthropic估值超越OpenAI/国行Switch正式停服 好就是大。 把家装进车里,把纯电融进增程。 鸿蒙智行的首款 MPV,献给预算充足的老板们。 持币观望,是目前的最佳选择 一场针对 AI 的大型猎巫 腾讯的 AI 王牌是微信 早报|OpenAI或将起诉苹果/iPhone 17 Pro官降1000元/影石CEO回应Luna定价贵:5299是美国价格 AI 人机交互,迎来十字路口 锐意向前。 液压底盘,让方程豹告别千斤顶。 AI 时代的价值坐标正在被重建。 让人愿意戴,并且愿意长时间戴,这就是智能穿戴产品最重要的优势。 早报|元宝推出一键总结微信聊天/曝苹果探索将AI Agent引入App Store/小米 17 Max官宣本月发布 管 agent 要像管人一样,懂得「驭臣之术」…… 高刷、高刷,还是高刷 Y600 Pro 可能是 vivo 今年最重要的一款产品。它不一定最贵、不一定最亮眼,但它代表了 vivo 这家公司对入门级市场的一次重新理解 —— 这个档位的用户要的是什么,不再由旗舰来定义。 让 Android Auto 和 Google Built-in 更适应不同车型和不同屏幕,同时继续与苹果 CarPlay 竞争。 大疆 Pocket 4P 上手体验:欲穷千里目,更多摄像头 拳打 iPhone,脚踢 Galaxy 比 1000 马力更敏感的,是重量。 设备一直在变,但芯片作为中枢的地位不变。 给 Gemini 不止一个身体 一个行业的终结 早报|Android 17转型智能系统,深度整合AI/腾讯:微信已读和访客功能「已焊死」,不会开发/李想:理想自研芯片不是跟风 用算力对抗经验。 我将以高达形态出击! Google 的大招是图像、文本、视频轮着来 汽车早已不仅仅是一种交通工具。 想要什么格式就什么格式 YU7 GT 秀肌肉、提品牌、战全球;YU7「青春版」 降门槛、保销量、拼刺刀。 早报|曝苹果新Vision Pro研发已暂停,团队分拆/黄仁勋:AI让所有人站上同一条起跑线/微信状态将推出「访客记录」 失去车顶,不失下压力。 重点是:人无我有。 最好的 AI 载体,需要一个 AIOS 全球 AI 顶会,快成中国卷王的专场了。 去读书,更去读那些真正有作者的书。 你拿 AI 写代码,AI 给你种木马 AI 时代最反焦虑的演讲 AI 时代,编程能力更珍贵了 早报|微信灰测「组合支付」功能/苹果或重新设计macOS27「液态玻璃」/哈啰回应员工脚踩青桔美团 早报|中汽协辟谣8家车企锁电被约谈/曝苹果正在研发全息iPhone/李想回应理想L9四年换代:汽车不是手机 车市又将血雨腥风。 快不是新闻,一直快才是。 理想内饰的新阶段,由 L9 Livis 开始。 让普通家庭跨入高品质出行的门槛。 当匠心遇上算力。 淘汰赛的进程正在加速。有些品牌注定会在这个周期里倒下。 一个不懂死亡的小男孩,攒了 15 块钱,想给去世的奶奶烧一部手机 三排六座,定位高于雷克萨斯 RZ。 早报|小米增程SUV 曝光,但不叫YU9/苹果与英特尔达成初步芯片代工协议/Cloudflare用AI裁掉20%员工 苹果的第一款 AI 穿戴产品,将是 AirPods。 AI 硬件必须先沿着「手机」的路走出来,然后才有资格谈「革手机的命」 一款车盘活整个广汽新能源。 你还发现了 AI 的哪些口癖 苹果 AI 硬件最激进的赌注,撞上了全球最严的隐私墙。 如果连品牌自身都要留一条退路,消费者又凭什么要坚定地选择你? 早报|曝苹果考虑取消入门款MacBook Neo/理想高管谈MEGA设计争议:不是失败/千问PC端上线AI语音输入 「请稍等片刻」 聊着天,就把视频做了 AI 时代的新「键盘」长这样 28 年控制终结!保时捷出售布加迪全部股份,作价 70 亿元 早报|DeepSeek首轮融资曝光,估值450亿美元/谷歌称Android不会推出「液态玻璃」/三星宣布在中国大陆停售所有家电产品 第十一代雅阁,还得扛 4 年。 独显配风扇,新一代性能旗舰的标配 是伸张正义还是背刺 屏幕常亮,心态常好。 刚刚,GPT-5.5 Instant 发布,奥特曼还邀请马斯克参加 AI 办的派对 早报|iPhone 17包揽Q1全球最畅销手机前三/曝Siri将推出独立App对标ChatGPT/鸿蒙智行回应零重力座椅夹人 「Codex 正经历 ChatGPT 时刻」 早报|苹果:下季度内存成本压力将显著加大/宇树最便宜人形机器发布/5月1日高速车流或创历史纪录 一加想做的掌机,原来是这个样子 问题的关键,是《半条命 3》 GPT-5 到底在说什么鬼话? 剥离掉 AI 算法与屏幕,最好的社交也只需要一根电话线,和两个直面彼此的灵魂。 续航长、操控强、高智慧、全地形。 还能跟你比心🫶 正式被确诊为 skill:成本低,可复制,一抓一大把 早报|苹果iOS 27或大幅升级照片App/曝一加、realme正式合并/去年我国Token调用量达21100万亿 国产开源版的「最强平替」 FOBO 的风,还是吹到了库比提诺
集中爆发本身就是一个信号
张子豪 · 2026-04-17 · via 爱范儿

这周的大模型热点除了 Anthropic 刚刚发布的 Opus 4.7,世界模型成了另一块角力的阵地。

短短几天内,AI 圈几乎是连珠炮式地发布了一系列重磅世界模型。

先是李飞飞的 World Labs 开源了 Spark 2.0,紧接着腾讯在昨天正式发布并开源了混元 3D 世界模型 2.0(HY-World 2.0)。

▲腾讯混元 3D 世界模型 2.0 体验地址:https://3d.hunyuan.tencent.com/sceneTo3D

阿里也马不停蹄,新成立的 ATH 旗下创新事业部团队,刚刚才官宣了 HappyHorse,立刻又发布世界模型 HappyOyster。

▲阿里 HappyOyster 官网截图:https://www.happyoyster.cn/

最容易忽略的还有英伟达 Lyra 2.0,没有发布会和新闻稿,旗下的空间智能实验室直接甩出一篇论文,「可探索的生成式 3D 世界。」

▲英伟达研究博客:https://research.nvidia.com/labs/sil/projects/lyra2/

这种密集程度让人产生一种错觉,那些生图生视频模型是不是都弱爆了。现在的 AI 已经从「生成一张图、一段视频」的平面阶段,大步来到「构建一个世界」的 3D 空间时代。

不仅技术端在狂飙,资本市场也给出了强烈的回应。

今天,群核科技正式登陆港交所。这家空间智能公司一直致力于推动 AI 进入物理世界。它的成功上市,标志着「世界模型第一股」的正式诞生,也向外界释放了一个明确信号:世界模型,真的开始火了。

而在热闹之余,我们也发现虽然这些公司都叫世界模型,但是路线完全不同,只能生成视频的像是一个 Demo 产品;能生成 3D 资产的看似可以融入开发设计的工作流;还有在论文里的未来工作畅想,希望用于机器人的训练。

目前,腾讯混元 3D 世界模型 2.0 已经开放了申请。我们第一时间进去体验了一波,试图从中找到一个答案:这些被认为是 AI 下一阶段的世界模型,到底能解决真实世界的哪些问题?

从看电影到开始游戏

此前我们聊世界模型,大多像在聊一个「更长、更懂物理规律、一致性保持更强的视频」。但这次体验混元 2.0,最直接的冲击力在于,它生成的不再是 MP4,而是真正的 3D 资产文件。

在体验中,我用简单的提示词输入了「吉卜力风格的山间小镇,黄昏」。在几分钟的计算后,出现在屏幕上的画面像是一个大世界游戏。

点击下载,混元 3D 提供了全景图、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四种 3D 资产文件格式。

四种文件类型涵盖了 Mesh(三角面片网格)、3DGS(3D 高斯泼溅)、点云等多种格式的 3D 资产文件,这些文件可以直接导入 Unity、Unreal Engine,游戏开发者拿到手之后可以继续编辑、调整、搭建关卡。

▲所生成的世界同样可以保存为全景图片,原图约 20MB。

在世界生成任务上,除了常见的文生世界,混元 3D 同样支持图生世界。我们找了一张《拯救计划》电影截图,Rocky 最后在波江座人给他搭建的世界里漫步,让混元来还原整个波江座。

▲由于电影截图里就有显示一个外壳包围着 Rocky 居住的海边,所以混元生成的世界也有一块「黑影」

当使用 Unsplash 上下载的高清雪山图片时,混元 3D 世界模型 2.0 生成的雪景,画质和真实感都更强。

▲全景图和导演模式下的角色漫游

无论是上传图片还是文字提示词,应用内都有相关的指引,例如上传的图片分辨率不能小于 512*512,避免画面出现人物,不要有动物/人物特写,避免使用纯色、纯纹理图片;以及天空、星空等画面占比较大图片也不适合等。

而文本提示词,最好是场景类别(沙漠、海面、房间等)+ 场景特征(物体、天空等视觉描述)+ 风格(可选,卡通/写实/油画风格等)。

混元 3D 世界模型 2.0 的风格化控制表现也很好,从官网已有的世界案例能看到,无论是温馨的绘本风还是写实的游戏风,它对语义的解析非常精准;墙壁的纹理、地牢的阴影和光感都极具沉浸感。

除了能生成可用的 3D 资产,混元 2.0 真正让我感到「世界」属性的,是它的角色模式。

现在我们可以直接操控一个角色在刚刚生成的场景里行走、加速、跳跃、转弯、探索,整个过程就像是在玩一个大世界游戏。同时,它自带物理碰撞,角色不会穿墙而过,也不会掉出地图边缘。

这种即刻生成、即刻可玩的体验,确实在模糊了 AI 生成与游戏引擎之间的边界,随着能生成世界的范围不断扩大,角色的探索或许会更有意思。

实时生世界时,我们能直接控制角色的行动,混元 3D 模型会自动生成对应的世界,单次生成的时长是一分钟。

对比之前的混元 3D 模型,这次的 2.0 版本在一句话/一张图生世界任务上,不仅支持下载 3D 资产文件,推出了全新的角色模式,而且在画面精细度和真实感方面,也从底层的模型架构进行了重新设计。

▲混元世界模型 2.0 多模态世界架构|https://3d-models.hunyuan.tencent.com/world/

新的模型架构,打通了「理解、生成、重建」的闭环。

  • HY-Pano-2.0: 不需要专业的相机参数,普通图片就能映射出 360° 全景。
  • 空间 Agent 技术: 像给 AI 装上了导航,它能智能规划漫游轨迹,确保护理和视觉上的衔接不会穿帮。
  • HY-WorldMirror 2.0: 保证了即使是在大幅度的视角变换下,物体侧面和背面的完整度依然在线。

在世界重建任务上,混元世界模型 2.0 输入多张图或视频流,就能做到重建真实场景。

在过去,我们想要构建/重建一个可互动的 3D 世界,需要成体系的团队和数月的打磨;而现在,通过混元 2.0 这样的工具,只需要一个创意。

并且,这个创意,无论是以文字、图片还是视频的形式呈现,它都可以生成一个拖进 Unity 的原型,哪怕质量还需要调整,哪怕很多细节还要人工修改,但整个设计的工作流,AI 也开始在发力了。

疯狂的世界模型周,疯狂的 AI

当我们再把视线从混元 3D 世界模型 2.0 的资产生成、角色模式、世界重建,拉回本周连发的其他几个世界模型,我们会发现,这些不同在不同维度突围的世界模型,正共同拼凑出世界模型更明确的样子。

阿里 HappyOyster 目前还在主打漫游和导演模式,让我们用自然语言随时介入世界演化,改写剧情走向和角色动作。

英伟达 Lyra 2.0 用一张图就能生成长达 90 米的连贯 3D 环境,它生成的场景甚至能直接丢进 Isaac Sim 给机器人做物理训练。

李飞飞 Spark 2.0 打通「交付最后一公里」,前面那些模型都在解决怎么造世界,而 Spark 2.0 已经开始解决怎么给人看。它通过独创的流式加载和虚拟内存技术,把上亿个 3DGS 粒子的超大世界,硬生生塞进了普通手机的网页浏览器里。

▲World Lab 生成界面,提示词:吉卜力风格的山间小镇,黄昏

看着这些各显神通的世界模型界面,一个现实的结论是:很明显,世界模型还没迎来它的 ChatGPT 时刻。

四家公司这一周的密集发布更像是在为这个时刻做准备,画面质量、交互能力、资产格式、交付方式、仿真精度,每个都在朝着自己的方向优化。但把这些块拼成一个「让普通人愿意每天打开」的产品,还没有模型做到。

在过去两年里,随着 AI Coding 重塑代码开发、Nano Banana 等模型颠覆平面设计,前端工程师和平面设计师们已经经历了「xxx is DEAD」。现在,这朵雪花大概是要飘到 3D 设计的护城河上。

随着更多模型厂商的下场,3D 设计的工作流也会慢慢从 AI 辅助走向 AI 主导。到那时,生成并体验一个 3D 互动世界,将会像今天我们在手机上刷短视频一样流畅、低成本且理所当然。

毕竟,在所有的科幻叙事里,没有任何人会抗拒自己成为「造物主」,去自定义一个新世界。