惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - 司徒正美
D
Darknet – Hacking Tools, Hacker News & Cyber Security
M
MIT News - Artificial intelligence
腾讯CDC
IT之家
IT之家
Microsoft Azure Blog
Microsoft Azure Blog
M
Microsoft Research Blog - Microsoft Research
阮一峰的网络日志
阮一峰的网络日志
H
Help Net Security
L
LangChain Blog
G
Google Developers Blog
Stack Overflow Blog
Stack Overflow Blog
人人都是产品经理
人人都是产品经理
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - 【当耐特】
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
U
Unit 42
Recent Announcements
Recent Announcements
S
SegmentFault 最新的问题
大猫的无限游戏
大猫的无限游戏
博客园 - Franky
T
The Blog of Author Tim Ferriss
罗磊的独立博客
宝玉的分享
宝玉的分享
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
雷峰网
雷峰网
D
DataBreaches.Net
爱范儿
爱范儿
Schneier on Security
Schneier on Security
P
Palo Alto Networks Blog
Spread Privacy
Spread Privacy
Hugging Face - Blog
Hugging Face - Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
K
Kaspersky official blog
P
Privacy & Cybersecurity Law Blog
博客园_首页
T
Threat Research - Cisco Blogs
I
InfoQ
有赞技术团队
有赞技术团队
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Recorded Future
Recorded Future
量子位
H
Hackread – Cybersecurity News, Data Breaches, AI and More
GbyAI
GbyAI
Cyberwarzone
Cyberwarzone
B
Blog
C
Check Point Blog
P
Proofpoint News Feed
S
Securelist
A
Arctic Wolf

雷峰网

CVPR 2026 医学影像 AI 趋势梳理:从看懂影像,到接管科研工作流 清程极智:Token成为AI时代的 “水电煤”,中国AI产业从能用迈向好用 | 雷峰网 独家|许鹏出任连尚集团首席执行官 加速AI战略纵深突破 | 雷峰网 ASR、TTS、Chat均为第一,阿里语音大模型拿下“大满贯” | 雷峰网 金融+AI的奇点时刻,阿里云要“点”石成“金” 官宣成为世界杯持权转播商,小红书加速打造“社区的社区” 单芯片RGBD,物理AI视觉的未来 | 雷峰网 领世而上,全新一代问界M9正式上市,官方零售价47.98万元起 | 雷峰网 拼多多发布Q1财报,陈磊:全力推进品牌自营业务,三年再造一个拼多多 | 雷峰网 ICRA 2026 | 用于消化道微创活检的仿生剪纸胶囊机器人 | 雷峰网 ICRA 2026 | 微分智飞11项科研成果入选解读 | 雷峰网 ICRA 2026 | EndoDDC:扩散模型赋能稀疏到稠密深度重建 | 雷峰网 ICRA 2026 | 港中文高源、林天麟团队提出自发共适应策略:基于元学习赋能异构多机器人系统协同进化 | 雷峰网 协会|跨界学术突破!CAIA理事单位万魔声学谢冠宏博士论文登顶国际权威期刊,AI声学开启脑机互联新征程 | 雷峰网 ICRA 2026|北京大学董豪团队Imagine2Act:让机器人“先想象、再动手”,攻克精细家务难题 | 雷峰网 一人9篇ICRA!MIT Keynote定档+14展商抢发,开幕倒计时5天引爆 | 雷峰网 第三代元PLUS 11.99万元起正式上市,全系搭载第二代刀片电池及闪充技术 | 雷峰网 珀乐互动基于Wan2.7打造《羞羞的铁拳》漫剧,制作效率提升超90% | 雷峰网 亢奋与焦虑之间:新华三如何重估AI硬件的价值标尺? | 雷峰网 DataCon2025颁奖典礼在京召开 | 雷峰网 经过华为、传音、拓竹历炼,95后打造AI母婴界特斯拉 | 雷峰网 百亿估值背后,普渡机器人以全球化商业实战练就具身智能「最强大脑」 | 雷峰网 有钱能为所欲为?黄仁勋在夜市买烤玉米,「付费插队」引热议;投毒杀害董事长,三体公司原CEO许垚被执行死刑;华为成立「莫邪」工作小组 | 雷峰网 乌沙村往事:你所不知道的OPPO | 雷峰网 简智机器人与蚂蚁灵波达成战略合作,以人本范式革新具身智能模型进化 | 雷峰网 这次登顶 RoboChallenge 的,终于是「能干活」的机器人了 | 雷峰网 摩尔线程描绘了更大的蓝图:从全功能GPU到Agent全场景落地 | 雷峰网 长江存储的IPO能撑起万亿想象吗? | 雷峰网 华东大厂下单万台B300;AI芯片公司以旧换新计划遇冷;芯片公司上市,老股东被锁定三年;大厂仅要求保证金与竞业协议|算力情报局Vol.11 | 雷峰网 石头科技入选2026福布斯中国DTC跨境影响力品牌,本土化运营链接全球市场 | 雷峰网 Code Arena放榜:阿里千问3.7编程能力超越GPT、Gemini,仅次于Claude系列 | 雷峰网 阿里云加速AI出海,发布全新海外AI产品官网Qwen Cloud | 雷峰网 两个月融资4亿美元,国际资本与产业资本同时加码零一汽车 | 雷峰网 北纬诺贝巅峰对话|乔·韦曼走进中关村两院,深度解读AI时代企业增长新逻辑 | 雷峰网 一台手掌大小、300克的AI主机,为什么能跑122B模型? | 雷峰网 把18A塞进主流轻薄本,英特尔「WildCat Lake」想让人人用上AI PC | 雷峰网 速卖通Brand+开放韩国站:2026市场投入激增至3倍 | 雷峰网 港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策 | 雷峰网 华为发布AIDC数据基础设施全栈方案,覆盖数据湖至智能体框架五大层级 | 雷峰网 独家丨AWS大中华区战略客户团队负责人、L8高管顾凡将加入支付巨头Visa | 雷峰网 独家解读丨Anthropic每赚100块,为何会被马斯克顺走50? | 雷峰网 小鹏副总裁:小鹏可能是唯一欢迎特斯拉FSD入华的车企;有员工喊出「学三星罢工」!曝台积电Q1净利大增58%反降薪;DeepSeek一月内宕机三次 | 雷峰网 数字华夏发布新一代人形机器人“星行侠P2”,加速机器人场景落地 | 雷峰网 何小鹏的赌局:GX狂降12万,换一场不能输的冲高 | 雷峰网 十年出货超10万台,越疆以全栈自研与数据闭环布局具身智能 | 雷峰网 独家丨前美团外卖技术负责人入局餐饮具身模型,「元节智能」获千万级种子轮融资 | 雷峰网 安克消噪耳机搭载AI音频芯片Thus™ A1,获吉尼斯“最清晰通话”认证 | 雷峰网 联想中国基础设施业务上财年实现两位数增长 刘军解读背后四大驱动力 | 雷峰网 Manus创始人计划融资10亿美元回购公司;曝知名招聘平台主动申请破产;特斯拉官宣:监督版FSD登陆中国! | 雷峰网 寻找 AI 的「第三语言」:中间表示如何打通多模态鸿沟 | CVPR 2026 谷歌掀桌,一口气甩出16个AI王炸 | 雷峰网 Anthropic 花 3 亿美金买下 API「修路工」,打响连接层暗战 我们不看阿里财报 | 雷峰网 FSD入华前奏?曝特斯拉国内9城急招智驾测试员;曾对标乔布斯!大疆的对手GoPro要被卖了:3年亏损近40亿;字节Seedance 2.1即将发布 | 雷峰网 对标特斯拉FSD,Momenta借势出海 | 雷峰网 DeepSeek组建Harness团队,非「超能力者」不要?中国AI开启「做产品」的关键一跳 | 雷峰网 清华大学 X 追觅扫地机:共建校级实践基地,开启顶尖工程师“养成计划” | 雷峰网 独家丨腾讯云国际中东和北非区域副总裁胡丹离职 | 雷峰网 阿里云为什么「重构自己」? | 雷峰网 OpenAI放弃的事,为什么阿里可能做得成 | 雷峰网 阿里国际接近盈利背后,速卖通品牌化与AI提效双线并进 | 雷峰网 对话朱郴:深度拆解金山办公2026民企分销渠道打法 | 雷峰网 抖音“前沿科技首发计划”启动,首站落地Google I/O 2026大会 | 雷峰网 拿下韩国市场跨境平台第一!速卖通持续加码韩国市场 | 雷峰网 我在矿山深处送拼多多快递 | 雷峰网 万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」 | 雷峰网 复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026 | 雷峰网 商汤国香资本合伙人李扬:GPU估值翻倍、RISC-V站上台前,资本如何锁定确定性? | 雷峰网 万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」 | 雷峰网 智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速 | 雷峰网 7.3折!近5年折扣力度最大的一届天猫618,5月21日正式开卖 | 雷峰网 有人凌晨4点收到解雇信…Meta全球再裁8000人,赔偿方案曝光;沉寂半年露面!东方甄选前CEO孙东旭直播卖书;长鑫科技IPO,5月27日上会 | 雷峰网 全球首部95分钟AI长片将在戛纳电影节首映,由Seedance 2.0制作 | 雷峰网 拆解有道“子曰4”全量开源:如何通过重构思维链打下落地成本? | 雷峰网 国产GPU进军AIPC:铠大师与摩尔线程达成生态共建合作 | 雷峰网 2026 字节跳动奖学金启动!首次开放全球申请,奖励名额增加 | 雷峰网 上线一周登顶 Skill 商店热榜,AnySearch 正在重构“AI 时代搜索引擎” 从宜宾走向全球,MOVA智能制造基地正式量产 | 雷峰网 独家丨AWS大中华区顾凡、凌琦、朱翊三位 L8 高管离职 | 雷峰网 2026上半年最大IPO:Cerebras 上市,撕开美股「五大AI阵营」权力裂缝 | 雷峰网 阿里云面向Agentic时代全面升级,重磅发布全新“芯-云-模型-推理”技术体系 | 雷峰网 贝塔无限连续完成种子轮、种子+轮数亿元融资,以系统工程重构消费级具身智能 | 雷峰网 趋境科技完成数亿元 Pre-A 轮融资,加速建设高品质 AI Token 生产基础设施 全场景L4级自动驾驶第一股!驭势科技港股上市,引领L4级自动驾驶规模化落地 | 雷峰网 “声智融合、智启未来”全场景语音AI技术与产业发展战略研讨会在北京大学成功召开,开启语音交互的未来生活方式 | 雷峰网 独家丨大疆首款全景无人机上市以来全球出货量超12.5万台,市占率超98% | 雷峰网 Ozon Global调研:超七成俄买家认可中国商品质量改善,评价超越价格成首选中国商品依据 | 雷峰网 代码驱动的视觉感知:为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙 |CVPR 2026 | 雷峰网 理想汽车×火山引擎:AI智能助手纵深防御体系,为AI系上“安全带” | 雷峰网 出海四小龙合围亚马逊!全球电商流量前三AliExpress、Temu占两席 | 雷峰网 权威报告:中国AI云市场爆发,阿里云占比38.1%稳居第一,超二三四名总和 | 雷峰网 端启未来 万物新生||江原科技携新品亮相2026全球人工智能终端展 | 雷峰网 自动跟价再打八折引商家不满,京东采销怒斥:可去竞对平台寻找机会;Meta 计划全球裁员约7800人,AI转型引员工抗议;马斯克告OpenAI败诉 | 雷峰网 20万级满配运动SUV昊铂S600开启预售,权益价18.89万起 | 雷峰网 “6·18”观察丨自动跟价再打八折,京东采销怒斥商家群聊截图惹争议:“可以去竞对平台寻找机会” | 雷峰网 百度2026年Q1:总营收321亿元 AI业务占比达52% | 雷峰网 Figure机器人直播干活一整天,效果越惊艳,质疑越凶猛 | 雷峰网 2027年迈向十万台产能:矩阵超智开启具身智能量产元年 | 雷峰网 一封律师函引发的GitHub风暴:拓竹为何惹毛了全球极客? | 雷峰网 对话关梦龙:他想用 Agent 拯救你手机里的 100G 废片
CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模
2026-05-28 · via 雷峰网
CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模
多视角、事件视觉与相机轨迹,共同推动视觉模型走向更强空间推理。

    作者丨郑佳美

    编辑丨马晓宁

过去几年,计算机视觉行业一直在追求更强的识别、更大的模型和更复杂的生成能力,但真正落到机器人、工业检测、运动分析和空间交互等真实场景时,一个更底层的问题逐渐变得突出:视觉系统到底是在“看图像”,还是在“理解世界”?

真实世界并不是由一张张干净、完整、静止的图片组成的,物体会被遮挡,单视角会带来深度和姿态歧义,高速动作会在普通相机的帧间消失,场景结构也往往需要从不完整的观测中推断出来。

更进一步,视频中的语义甚至不一定只存在于像素纹理中,相机如何移动、观察者如何取景,本身也可能包含对事件和行为的暗示。

因此,视觉研究正在从单纯依赖 RGB 外观表征,转向对三维结构、跨视角一致性、时间动态和观察过程 的综合建模。

放在CVPR 2026 的研究脉络中看,这一趋势尤为明显:不少工作已经不再满足于提升传统 2D 感知指标,而是开始讨论如何让模型在真实空间中定位物体、捕捉毫秒级人体运动、从遮挡图像中生成完整 3D 场景,甚至仅凭相机轨迹理解视频内容。

下面这几篇论文正好从不同侧面回应了这个问题:它们分别把多视角几何、事件视觉、开放集 3D 生成和相机运动轨迹引入视觉理解中,试图让视觉系统从“识别画面中的内容”,进一步走向对真实世界 如何存在、如何运动、如何被观察 的理解。

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

01

视觉系统真的理解世界了吗?

《AlignPose: Generalizable 6D Pose Estimation via Multi-view Feature-metric Alignment》由捷克理工大学布拉格的捷克信息学、机器人学与控制论研究所(CIIRC CTU) 和捷克理工大学布拉格电气工程学院完成,关注的是 未见物体的多视角 RGB 6D 姿态估计。

在这一任务中,系统只获得物体的 3D mesh、多台已标定相机拍摄的 RGB 图像以及相机内外参,却需要在不针对测试物体重新训练的情况下,直接估计物体在统一世界坐标系中的三维位置和旋转姿态。

论文并没有简单地把多个单视角估计结果做投票或平均,而是将单视角估计器输出的候选姿态作为初始化,先借助相机外参把不同视角下的候选统一到同一个 3D 坐标系中,再通过 3D NMS 去除重复和冲突候选,随后用面向物体姿态的 multi-view feature-metric refinement 进一步优化结果。

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

论文地址:https://arxiv.org/pdf/2512.20538v1

具体来说,它会根据当前姿态在线渲染物体特征,同时使用冻结的视觉基础模型提取真实图像特征,使同一个 world-frame pose 在多个视角中共同最小化“渲染特征—观测特征”的差异。

这样的设计把原本依赖单视角模板匹配或 RGB-D 深度信息的姿态估计,推进到一种 无需物体专属训练、无需对称性标注、无需深度图,但能充分利用多视角几何约束 的框架。

多视角信息能够缓解单张 RGB 图像中的遮挡、深度歧义和外观歧义,而 foundation features 又增强了模型面对未见物体、无纹理物体、反光物体和透明物体时的泛化能力。

更重要的是,论文将 feature-metric alignment 从相机定位或场景级 bundle adjustment 的思路转化为物体中心的 6D 姿态优化问题,优化目标也不再是各个视角独立的姿态,而是全局一致的 world-frame pose。

实验中,作者在 YCB-V、T-LESS、ITODD-MV 和 HouseCat6D 上按照 BOP 方法评估,报告其平均性能比单视角估计提升约 11%,比已发表的多视角 RGB 方法提升约 5%,在无纹理、金属反光和透明物体等工业场景中表现尤为突出。

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

如果说 AlignPose 解决的是物体在多视角空间中的精确定位问题,那么《FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision》则把这种空间感知进一步推进到高速人体运动场景中。

该论文由厦门大学城市智能感知与计算福建省重点实验室、厦门大学信息学院教育部多媒体可信感知与高效计算重点实验室、厦门大学健康医疗大数据国家研究院和上海科技大学完成,研究重点是 毫秒级人体运动捕捉与高时间分辨率人体姿态估计。

高速人体动作往往包含大量瞬时变化,传统 RGB 相机受帧率限制,光学动捕系统成本较高,IMU 又容易出现漂移,因此单纯依靠低帧率视频插值很难真实还原运动细节。

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

论文地址:https://arxiv.org/pdf/2603.19770v1

针对这一问题,论文构建了 FlashCap 这一低成本高频动捕系统,将闪烁 LED 标记点 与 事件相机 结合起来:人体关键部位的 LED 以不同频率闪烁,事件相机异步捕捉亮度变化,再通过事件聚类、频率识别、异常过滤和 LED 匹配,自动生成 1000 Hz 的 2D 人体关键点标签。

基于这一采集系统,作者进一步构建了 FlashMotion 数据集,包含事件、RGB、LiDAR 和 IMU 四种模态,共 240 段序列、约 7.15M 个标注帧、20 名志愿者和多类高速动作,同时提供 1000 Hz 的 2D 标签与 60 Hz 的 3D SMPL 标签。

它的价值不只是数据规模更大,而是从采集端直接获得毫秒级标注,从根本上避免了低帧率视频插值对高速动作细节的遗漏。论文还设计了 ResPose 基线方法,以 RGB 姿态作为稳定的结构先验,再利用事件流学习毫秒级 residual pose,使模型能够在精确运动计时和高时间分辨率姿态估计任务上优于 ViTPose、Hybrid ANN-SNN、LEIR 以及插值类方法。雷峰网

整体来看,这篇论文建立了从硬件系统、自动标注、数据集构建到算法基线的完整闭环,为体育动作分析、快速人体运动理解和机器人模仿学习等需要毫秒级姿态信息的场景提供了新的数据和方法基础。

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

从物体姿态和人体运动进一步扩展到完整场景,《SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model》讨论的是如何从单张图像中恢复开放世界中的 3D 场景。

论文由清华大学、香港科技大学、IDEA Research 和 LightIllusions 完成,研究任务是 开放集单图 3D 场景生成,也就是从一张包含多个物体的普通场景图像中,生成几何完整、物体姿态合理、空间关系一致的 3D 场景。

现有方法往往试图从图像端到端生成整个场景,但在严重遮挡、未知物体类别和复杂物体关系下,容易出现形状缺失、姿态漂移和布局不稳定等问题。

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

论文地址:https://arxiv.org/pdf/2512.10957v1

SceneMaker 的思路是把这个复杂问题拆解成 去遮挡、物体级 3D 生成和姿态估计三个相对清晰的阶段:首先利用 Grounded-SAM 和 MoGe 获取物体 mask、深度和点云信息,形成对场景结构的初步理解;

随后通过独立训练的去遮挡模型补全被遮挡物体,为后续 image-to-3D 模型提供更完整的物体输入;最后再使用扩散式姿态估计模型统一预测每个物体的旋转、平移和尺寸,并将多个物体组合成完整场景。

这样的解耦设计避免了把遮挡补全、几何生成和空间布局全部压进一个黑箱模型中,使不同模块能够分别处理更明确的问题。

与此同时,作者利用 Objaverse 中的大规模高质量 3D 物体构建开放集合成场景,增强模型对未见物体、复杂遮挡和真实图像的泛化能力。

实验结果显示,SceneMaker 在 MIDI、3D-Front 和开放集测试场景上优于 MIDI3D、PartCrafter 等方法,说明它不仅能够生成更完整的物体几何,也能得到更稳定、更合理的场景级空间布局。

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

除了以上的从物体、人体和场景层面强化了视觉系统对三维空间的理解外,《Seeing without Pixels: Perception from Camera Trajectories》则进一步提出了一个更反直觉的视角:即使不看视频像素,只分析相机在空间中的运动轨迹,也可能理解视频内容。

这篇论文由 Google DeepMind 和德克萨斯大学奥斯汀分校完成,核心观点是相机轨迹并不只是 3D 重建或 SLAM 中的几何中间量,它本身也包含语义信息。

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

论文地址:https://arxiv.org/pdf/2511.21681v2

拍摄者如何移动、镜头如何转向、相机如何跟随目标或围绕场景运动,往往都反映了视频中的动作和事件。例如,在第一人称视角中,走路、攀岩、落地等动作会形成不同的相机位移和旋转模式;雷峰网(公众号:雷峰网)

在第三人称视角中,围绕场景拍摄或跟随运动目标也会留下具有语义指向的轨迹特征。基于这一观察,论文构建了 CamFormer 这一轻量级 Transformer 轨迹编码器,将一段相机 pose 序列表示为相对位移和旋转,并通过对比学习把轨迹嵌入与自然语言描述对齐。

为了缓解短轨迹片段语义稀疏、容易产生歧义的问题,作者还设计了 contextualized trajectory encoding,在编码局部动作片段时引入更长时间范围的轨迹上下文。

论文在 Ego-Exo4D、Nymeria、DynPose-100K、UCF101 和 FineGym 等数据集上验证了相机轨迹作为独立模态的价值,覆盖文本检索、动作 / 活动分类、关键步骤识别、时间定位和重复动作分析等任务。

结果表明,在身体运动明显或视觉线索不充分的场景中,轨迹特征甚至可以超过更重的视频模型;而在视觉信息更强的流程性动作中,它也可以作为补充模态与视频特征融合,进一步提升理解效果。

整体来看,这篇论文的意义不在于提出一个更复杂的视频视觉模型,而在于证明 “相机怎么动”本身就是一种可学习、低成本、可从普通视频估计出来的语义信号,为视频理解提供了除 RGB、音频和 IMU 之外的新模态视角。

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模

雷峰网原创文章,未经授权禁止转载。详情见转载须知

CVPR 2026 三维视觉趋势梳理:从 RGB 感知,到真实世界建模