惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Full Disclosure
Recorded Future
Recorded Future
T
Tenable Blog
S
Securelist
C
CERT Recently Published Vulnerability Notes
T
Threatpost
S
Schneier on Security
A
Arctic Wolf
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
Know Your Adversary
Know Your Adversary
P
Privacy International News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Register - Security
The Register - Security
Cisco Talos Blog
Cisco Talos Blog
AWS News Blog
AWS News Blog
K
Kaspersky official blog
T
True Tiger Recordings
T
Threat Research - Cisco Blogs
V
Vulnerabilities – Threatpost
P
Palo Alto Networks Blog
T
The Exploit Database - CXSecurity.com
小众软件
小众软件
B
Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Microsoft Azure Blog
Microsoft Azure Blog
Cyberwarzone
Cyberwarzone
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tor Project blog
Spread Privacy
Spread Privacy
Malwarebytes
Malwarebytes
P
Proofpoint News Feed
F
Fox-IT International blog
F
Fortinet All Blogs
P
Privacy & Cybersecurity Law Blog
G
GRAHAM CLULEY
量子位
Latest news
Latest news
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 叶小钗
Project Zero
Project Zero
T
Tailwind CSS Blog
N
Netflix TechBlog - Medium
Martin Fowler
Martin Fowler
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
I
Intezer
博客园_首页
腾讯CDC
H
Hackread – Cybersecurity News, Data Breaches, AI and More
D
Darknet – Hacking Tools, Hacker News & Cyber Security

量子位

1400亿Agent入场,“流量”这条护城河要塌了 OpenAI挖来了个F1级别车手搞公关 触觉具身来了个梦之队:天使轮近亿 Codex自我蒸馏玩法火了!OpenAI员工亲授:复制粘贴就能让AI消灭重复劳动 DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时 将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式 刚刚,国产AI自己造了AI,全球首例! 留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题 卡帕西Anthropic最新头衔:技术员工(MTS) 华为发布AI DC数据基础设施全栈方案,加速行业智能化跃升 荣耀600系列手机发布:4K闪光微单Live,国补价2294.15元起 “卡车界特斯拉”,刚刚又融了2亿美元 编程权威榜单:千问3.7仅次于Claude,阿里全球第二 刚刚,国产Agent模型闯入全球第一梯队!限时免费 京东JoyInside戴文军:AI的终极形态不是聊天,是融入你家每一件物品丨AIGC2026 无人车遇水则瘫?Waymo大规模召回,叫停多城Robotaxi服务 打造创投生态的超级枢纽, 2026投资界SuperLink大会定档6月 “VLA和世界模型都不是终局,会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026 蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收,让机器人边推演、边行动 DeepSeek V4还能更省!新工具缓存命中率高达99.82%,2折稳定到手 图灵奖得主领衔,中国大模型第一梯队集结!2026智源大会,看懂AI下一程 Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想 华为具身大脑一号位创业,用认知科学造世界模型,获亿元级融资 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 卷到今天,Agent的含金量还在提升丨AIGC2026圆桌论坛 谷歌CEO承认Coding落后了 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 什么!你说胡彦斌也在苦修Vibe Coding “五类人AI替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026 OpenAI大神教你如何榨干Codex DeepSeek V4价格打骨折,宁王京东网易抢着入场,梁文锋:目标是AGI 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 龙虾养不动了?周鸿祎给虾搭了个云端办公室,专业私教在线炼虾 李飞飞再出手,空间智能的ImageNet来了 融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅 狂揽F轮融资+拿下4100万用户!深圳玩家出手,把企业旧系统变成AI能力库 顶流里最快!智谱,你是在「喷」代码吧 80集短剧,3天拍完:当电影人下场做Agent,影视生产迎来了“最懂行”的解法 39万!雷军发布小米最贵SUV 联想集团Q4营收利润双创新高,兑现历史最佳财年 腾讯混元开源全新翻译模型Hy-MT2 ,上线小程序「腾讯Hy翻译」 菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题 风行在线CEO易正朝:先全员Coding,再All in众创丨AIGC2026 Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五 AI首次实现中国风光发电普查,北大、阿里达摩院研究登上《自然》 上海交大AI教授亲授:半天带你拆解Agent底层逻辑 得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家 520当天400万AI人,都在量子位听这近20场演讲&对谈|第四届中国AIGC产业峰会 顺丰邮政仓库干活的机器人,顺手拿了个具身高考第一 刚刚,马斯克公开SpaceX招股书! 智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速 太初元碁洪源:异构计算能力将成为未来AI算力基础设施的重要方向|AIGC2026 VC、品牌顾问、编剧,正在批量把自己做成AI AIDC建设正从“通用标准”走向“适用高效” 破壁行动!把大厂级“研发外挂”发给每一个创新者,智会心研PLUS版免费公测 海信激光电视探索X1 Pro发布:中国家庭,正式进入客厅影院时代 2026中国AIGC最值得关注的企业&产品图鉴来了!谁在造浪,谁在落地? 趋境科技完成数亿元Pre-A轮融资,高品质AI Token生产基础设施 苏姿丰上海开讲:AI正在重新定义计算的每一层 完成“由铁到钢”的生态蜕变 刘军携联想全场景AI终端点亮智能未来 抢先李飞飞!世界模型能多人联机玩FPS游戏了 国产GPU开始造世界!国内首个全栈具身智能仿真平台来了 Cursor新模型,你怎么还在套Kimi?马斯克你怎么还吆喝上了?? L2++「五冠王」文远知行:自动驾驶版的张雪机车,专治各种不服 5.20 明天见!拿好这份参会指南|AIGC2026峰会 Qwen最新3.7 Max预览版空降!两代超大杯并行迭代,林俊旸走了但还在加速 百度无人车新纪录:周订单破35万!李彦宏:开始单城盈利了 重塑主流PC,第三代英特尔酷睿开启全民AI轻薄本时代 AI水论文封一年,署名连坐!arXiv最严新规来了,陶哲轩附议 openJiuwen社区开源新招:重磅发布JiuwenSwarm,拉开群体智能“养蜂”序幕 华为“养”出半个具身智能创业圈 上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代 8B模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026 信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26 黄仁勋北京必吃榜我们都尝了!后海酒吧老板:他答应以后每年来一次 LeCun炮轰Hinton:他认可LLM就是想摆烂退休了! 30万奖金池,这道汉语方言对话题等你来解丨第十一届信也科技杯全球AI算法大赛 一只机器狗,把英伟达的算力王座拱翻了 世界大学生超级计算机竞赛首设“英才对接”环节,搭建“赛场—职场”人才供需桥梁 Agent、多模态、应用、算力一天看尽,峰会亮点在此|5.20日,来现场一起AI 龙虾之父月烧940万元的token!要不是入职OpenAI还真用不起 SFT别急着接RL!你的多模态大模型可能一直在“带伤训练” 6.4k Stars!用Claude Code写论文的全套流水线,有人打包开源了 不用再找了,AI落地最全的实战打法,都在亦庄这场大会里 奥特曼投的芯片涨疯了,今年最大科技IPO 虾马之后又火一个!OpenHuman用20分钟了解你的一切,存成卡帕西式知识库 别让模型烧Token了!GitHub 20k星神作:把全网变成命令行 中国500万医生的新AI:顶刊独家联手,卷的就是证据源 15.68万乐道L80开卖,厨房搬进前备厢,李斌:纯电大五座SUV的“拐点” 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局 Need is all you need:AI接手Coding后,程序员最值钱的能力只剩这一项? 容联云发布“数字员工”级 Al Agent 平台,重塑大模型联络中心 手机的智能体AI,正在因为天玑全面跃升 阿里发布Qoder 1.0,可全面接管代码生成、验证和交付流程 坐到马斯克和库克中间的湖南女人 蚂蚁百灵 Ring-2.6-1T 开源 Agent 执行能力全面增强 智能无处不在:OpenClaw预示的AI未来 英伟达给黄仁勋儿女涨薪了!年薪百万美元,“凭能力而不是身份” 数亿元融资落地!国内最早布局“人类学习”路线的具身公司,用人类视角重做具身智能
5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了
听雨 · 2026-05-27 · via 量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-05-27 17:01:54 来源:量子位

不再绕回2D

VGGT-Edit团队 投稿
量子位 | 公众号 QbitAI

3D世界“会看”了,但还不会“改”。

从NeRF到83D Gaussian Splatting,再到VGGT、π³这类前馈式3D重建模型,整个行业的进展速度明显加快——只需几张图片,就能在几秒内重建完整3D场景。

但问题也恰恰出在这里。这些模型虽然已经能理解三维世界,却还不会修改三维世界。你可以让它重建一个房间,却很难真正告诉它:

把椅子移到窗边,删除中间那张椅子,把灰色皮沙发改成白色长毛沙发。

更麻烦的是,一旦涉及复杂编辑,现有方法往往迌速崩採——某些角度里椅子消失了,换个视角椅子又重新出现;明明没改的背景,却跟着一起变形。

为应对这一挑战,来自北京大学香港中文大学上海AI LabNTU等机构的研究团队,提出了一套原生3D编辑框架:VGGT-Edit

核心思路只有一句话——

不再绕回2D,而是直接在3D空间里完成编辑。

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超过现有方法,单次编辑仅需约5秒,最高实现120倍加速。

问题其实一直出在在2D

目前大多数编3D的方法,本质上仍然是“2D思维”——先把场景拆成多弤2D图片,逐张编辑,再重新拼回3D。

但由于每个视角都是独立处理的,所以很容易出现:

  • 一个视角里椅子已经删掉了;
  • 换个角度椅子又重新出现;
  • 背景区域跟着一起漂移;
  • 物体边缘出现重影和闪烁。

3D编辑方法的比较

很多结果看起来更像“在不同角度硬P出来的图”,而不是真正稳定的3D空间。

对于机器人、AR/VR、空间智能这些方向来说,这几乎是致命问题——这些场景真正需要的,不是“某一个角度看起来对”,而是整个3D世界始终稳定一致。

原生3D编辑,开始从概念走向可用

VGGT-Edit的核心思路非常直接:既然问题来自2D,那就不要再绕回2D

整个框架建立在VGGT-Like前馈式重建模型之上,继承了其快速、高效的3D表示能力。但有意思的是,团队并没有选择重新生成整个场景,而是提出了一种非常巧妙的机制:

残差场预测(Residual Field Prediction)。

简单理解就是:模型先保留原始场景稳定的3D结构,然后只学习“哪里需要变化”,例如:

  • 椅子往右移动;
  • 沙发材质发生变化;
  • 删除某个物体;
  • 新增一个家具。

这些变化,都被表示成了:新场景 = 原场景 + 局部残差变化

这个设计有个非常重要的好处——因为大部分区域本来就不需要变化,所以模型不用重新“生成整个世界”,只需修改局部,结果就是没改动的背景区域会非常稳定。

这也是VGGT-Edit和很多现有方法最明显的区别之一。

文本语义,第一次真正开始“对齐”3D空间

研究团队发现,如果只是简单把一句文本输入模型,很容易出现一种情况——模型知道“你想改什么”,但不知道“该改哪里”。

为了解决这个问题,VGGT-Edit设计了一套关键机制:

深度同步文本注入(Depth-Synchronized Text Injection)

本质上可以理解成让文本语义和3D空间特征,在同一个深度层级里持续同步。

传统方法通常只在前面注入一次文本信息,但VGGT-Edit会在多个关键层持续融合文本语义,这样模型在整个3D生成过程中,始终知道:

  • 当前应该修改哪个区域;
  • 修改目标是什么;
  • 空间位置在哪里。

与此同时,团队还专门设计了一套“视角重要性加权”——因为并不是所有视角都同样可靠,有些角度可能被遁挡,有些视角只能看到半个物体。

VGGT-Edit会自动判断哪个视角更值得信任,最终让多视角编辑结果更加稳定。

一个真正面向“3D编辑”的编辑头

除了整体框架之外,VGGT-Edit还有一个非常关键的部分——专门面向3D编辑任务设计的编辑头

研究团队发现,对于VGGT-Like模型来说,原本的重建Head更关注“如何恢复场景”,但3D编辑真正需要解决的问题是:如何在保持整体稳定的情况下,只修改局部区域。

因此,VGGT-Edit额外设计了一套编辑分支,专门预测场景中的局部变化。

这个编辑Head会直接作用于3D表示空间,并输出对应的残差场变化。本质上,它学习的是:

  • 哪些区域应该保持不变;
  • 哪些区域需要发生编辑;
  • 编辑后如何保持多视角一致。

相比直接重新生成整个场景,这种方式更加稳定,也更加高效——这也是让VGGT-Like前馈重建模型具有编辑能力的关键一步。

一个10万规模的数据集,专门训练“3D编辑”

为了训练VGGT-Edit,团队专门构建了一个新3D编辑数据集DeltaScene,规模接近10万组,覆盖客厅、办公室、住宅、商业空间等多种场景。

DeltaScene数据集概述

更重要的是,整个数据生成流程高度自动化。

团队通过利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤,最终得到真正满足“多视角几何一致”的训练数据。

DeltaScene数据构造流程

对于原生3D编辑来说,这一步非常关键——模型真正需要学习的,不只是“图像变化”,而是同一个编辑,在不同视角下如何始终保持空间一致。

3D编辑,第一次开始接近实时交互

从结果来看,这条路线确实有效。

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度都超过了现有方法。

尤其是在添加家具、调整位置、修改材质这些复杂任务中,很多传统方法仍然会出现明显的“贴图感”和几何漂移,但VGGT-Edit生成的结果,会明显更像一个真实稳定的3D空间。

不同3D编辑任务的定性比较

更关键的是速度——论文中,VGGT-Edit单次编辑只需约5秒,相比很多需要长时间优化的传统方法,最高可实现120倍加速。

这意味着编3D第一次真正开始接近实时交互。

对于机器人、数字孪生、AR/VR等方向来说,这种变化非常重要——只有当编辑速度足够快,3D世界才真正可能变成“可交互”的世界。

在DeltaScene数据集上的定量结果

模型开始真正理解“空间变化”

论文里还有一个非常有意思的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。”

结果模型依然成功完成了编辑。

对未见过的指令进行泛化

这说明VGGT-Edit学到的,并不只是固定模板,它真正开始理解文本语义如何映射到3D空间变化。

而这件事,可能比“会生成3D”本身更重要。因为对于空间智能来说,未来真正关键的能力,也许不是“生成一个世界”,而是能否像人一样,自由、稳定、实时地修改这个世界。

VGGT-Edit,正在把这件事往前推进一步。

论文链接:https://arxiv.org/abs/2605.15186

版权所有,未经授权不得以任何形式转载及使用,违者必究。