惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
Threat Research - Cisco Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
V
Vulnerabilities – Threatpost
GbyAI
GbyAI
P
Proofpoint News Feed
L
LINUX DO - 热门话题
P
Palo Alto Networks Blog
A
About on SuperTechFans
T
Tenable Blog
M
MIT News - Artificial intelligence
IT之家
IT之家
I
Intezer
D
DataBreaches.Net
爱范儿
爱范儿
T
Threatpost
C
CERT Recently Published Vulnerability Notes
云风的 BLOG
云风的 BLOG
博客园 - 三生石上(FineUI控件)
WordPress大学
WordPress大学
K
Kaspersky official blog
大猫的无限游戏
大猫的无限游戏
A
Arctic Wolf
Y
Y Combinator Blog
Cyberwarzone
Cyberwarzone
酷 壳 – CoolShell
酷 壳 – CoolShell
D
Darknet – Hacking Tools, Hacker News & Cyber Security
H
Help Net Security
Microsoft Security Blog
Microsoft Security Blog
Spread Privacy
Spread Privacy
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
AWS News Blog
AWS News Blog
博客园 - 聂微东
C
Check Point Blog
S
Securelist
有赞技术团队
有赞技术团队
雷峰网
雷峰网
aimingoo的专栏
aimingoo的专栏
Last Week in AI
Last Week in AI
Stack Overflow Blog
Stack Overflow Blog
MongoDB | Blog
MongoDB | Blog
D
Docker
G
GRAHAM CLULEY
T
The Exploit Database - CXSecurity.com
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tailwind CSS Blog
L
Lohrmann on Cybersecurity
G
Google Developers Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
L
LangChain Blog

雷峰网

1.8亿人在小红书读书:图书业在小红书电商营收规模年增超30% | 雷峰网 减重300kg,首搭5nm智驾芯片:2026款乐道L90正式亮相 | 雷峰网 阶跃和千⾥科技官宣战略合作:打造原⽣智驾基座模型,提升物理AI能⼒上限 | 雷峰网 “还债骑手”被强制下线240次:“开始我很反感过劳提醒,影响赚钱” | 雷峰网 石头科技:2025年营收高增56.51%,2026Q1营收增23.31% | 雷峰网 Mythos引爆攻击工业化时代,奇安信:构建三位一体内生安全体系是破解之道 | 雷峰网 曝两家科技大厂争投DeepSeek,估值飙至200亿美元;小米深夜放大招!最强大模型MiMo-V2.5系列发布;微软 Xbox 部门将裁员15% | 雷峰网 RGB-Mini LED电视普及风暴,海信正式发布小墨E5S Pro | 雷峰网 标配8255芯片与CDC,奇瑞试图终结“燃油车无智驾”时代 | 雷峰网 德赛西威也不相信,智驾能让Tier1躺着赚钱 | 雷峰网 找来刘翔做代言人,可能是智己LS8最好的一步棋 | 雷峰网 「中国版Grok上车」分水岭:阶跃交出首份量产答卷 | 雷峰网 百度Create大会双主论坛议程揭晓,多项重磅升级发布将集中亮相 | 雷峰网 泄露用户隐私!曝某AI助手将B用户简历发给A用户;苹果更换CEO原因曝光;微信宣布5国可用微信支付;航旅纵横「崩」了一天,借钱功能却正常 | 雷峰网 一季度交付1200件精益工具,希音深入技术创新提升按需时尚竞争力 | 雷峰网 从“替代”到“重构”:联想开天“1+2+N”如何重写信创AI PC逻辑? | 雷峰网 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 | 雷峰网 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 死亡率「99%」的芯片创业淘汰赛,为旌科技为何能活下来? | 雷峰网 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 | 雷峰网 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 | 雷峰网 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 | 雷峰网 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 | 雷峰网 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 | 雷峰网 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 | 雷峰网 Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比 | 雷峰网 阿里发布Qwen3.6-Max预览版,登顶最佳国产模型 | 雷峰网 郭达雅加入巨头背后:顶尖AI人才为何向大厂「回流」? | 雷峰网 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 | 雷峰网 智元邓泰华宣布:具身智能行业进入「部署态」 | 雷峰网 独家丨前安克研发总监丁准离职创业,获头部美元基金押注 | 雷峰网 曝DeepSeek V4将于本周发布,梁文锋对外融资20亿;雷军在服务区被堵车里维权?小米徐洁云回应;宇树H1半马被担架抬离赛道丨雷峰早报 | 雷峰网 广州一斗虾赛现场各路选手比拼蒸馏,现场诞生近50个“技能包” | 雷峰网 智元 ×Hitch Open|深耕具身智能,共建全球物理智能学术生态 | 雷峰网 2026广汽科技日重磅发布五大核心技术,以“科技向心”引领智能出行时代 | 雷峰网 一汽大众与卓驭科技的七年协同,交出一份燃油车智能化的成绩单 | 雷峰网 腾讯的长青游戏,今天又进化了一次 | 雷峰网 智己LS8上市:24.98万起售,刘翔站台的这台「最强8系」能打吗? | 雷峰网 全球1100万台出货,追觅打造最聪明的扫地机 | 雷峰网 阶跃率先跑通“中国版 Grok 上车”量产交付!超级 Eva 搭载极氪8X 今起上市 物理AI时代,为什么需要一颗“舱驾融合”芯片? | 雷峰网 逸安启欢迎问界加入,与宝马、梅赛德斯-奔驰携手, 共同推进中国豪华超充网络的发展 | 雷峰网 逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座 | 雷峰网 独家丨AWS大中华区多位L8高管迎来变动,SA部门负责人代闻离职 | 雷峰网 头部品牌 “加码”东南亚 泡泡玛特新品在Lazada发售 | 雷峰网 D19起售价21.98万元,零跑能成为9系SUV的“破局者”吗? | 雷峰网 全球首款!进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1 4小时闭门会,15位运动科技创业者聊透了哪些「不能公开说」的真相 | 雷峰网 在女性黑客松上,看见AI硬件的另一种可能 | 雷峰网 Plaud 爆火后,YoooClaw 要改写 AI 硬件的剧本 黄仁勋:DeepSeek在华为芯片上发布「很可怕」;抖音集团副总裁辟谣郭达雅亿元年薪入职字节;五角大楼与通用、福特等汽车制造商讨论造军火 | 雷峰网 正式官宣!佑驾创新与荣耀(HONOR)达成合作,以“无人车+机器人”打通全链路无人化闭环 | 雷峰网 解耦性能与厚重,英特尔AI高静Plus正在重写游戏本定义 | 雷峰网 独家丨Somnia Lab 完成千万美元天使轮融资,瞄准人机关系入口与万亿级具身情感生态 | 雷峰网 腾讯发布并开源混元世界模型 2.0,一句话造出3D世界,兼容游戏引擎! | 雷峰网 阿里发布世界模型HappyOyster,与谷歌Genie3竞争 | 雷峰网 从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情? | 雷峰网 格力高管炮轰友商被狂怼:又当又立!「真铜实料」这四字不姓格;美国将退还超1万亿元关税;品牌GMV高速增长,速卖通将成品牌出海全新主场 | 雷峰网 全球线上首发!辉瑞新一代减重药先维盈®开启预售服务,美团买药又下一城 | 雷峰网 傲基「生死局」:绝地反杀与盈利迷途 | 雷峰网 阿里ATH发布AI开发工具Meoo,已打通阿里云核心产品 | 雷峰网 美团闪购升级闪电仓供应链服务平台:向全行业商家开放即时零售供应链基建 | 雷峰网 阿里云连续5年稳居游戏云市场份额第一! | 雷峰网 与阿里成立合资公司后,新世界旗下Gmarket商品交易额(GMV)实现双位数增长 | 雷峰网 度小满发布DXMClawPay 面向Skill开发者提供一站式支付接入方案 | 雷峰网 滴滴自动驾驶全球化布局加快,年内在阿联酋开展试点 | 雷峰网 金立创始人刘立荣消失8年后最新动向:疑在印尼卖家具;月薪3万,DeepSeek聘人去内蒙草原守机房;比亚迪坪山园区大火,公司回应火势已扑灭 | 雷峰网 水下绞杀:清洁机器人渠道里的生意与生死 | 雷峰网 墨腾报告:东南亚电商平台成交额五年翻三倍 三大平台瓜分万亿市场 | 雷峰网 火山引擎:Seedance 2.0 API 服务全面开放 | 雷峰网 中远海运特运X火山引擎:“数字员工”驶向智慧航运新蓝海 | 雷峰网 重新认识具身行业,从自变量的这封邀请函开始 | 雷峰网 做了5年3D打印机,我发现了世界模型的Scaling Law | 雷峰网 别克×火山引擎:至境E7行业首发搭载豆包大模型最新版 | 雷峰网 强强联手,追觅牵手阿里速卖通,将在海外加大投入 | 雷峰网 推理卡毛利率下滑超7%,天数智芯「降价换量」的买卖值不值? | 雷峰网 明日新程完成连续两轮融资,领跑Harness群体多智能体赛道 | 雷峰网 「作弊」内幕曝光!3DMark回应将某知名国产手机除名;李想朋友圈炮轰东风日产恶意拉踩,后者高管回应;美的空调又发行业首创产品 | 雷峰网 50万起步的蔚来ES9,能否站稳高端? | 雷峰网 汽车行业已在阿里云上使用超10万卡“真武”PPU研发智驾 | 雷峰网 百度智能云联合多家头部具身智能企业,打造具身智能数据超市 | 雷峰网 从汽车到物理 AI:何小鹏眼中的智能汽车下半场 | 雷峰网 首个跑通端到端闭环的全模态安全脱敏的龙虾盒子,无问芯穹InfiniClaw Box让本地龙虾也能放心用! | 雷峰网 当参数不再决定胜负,AI时代的企业级SSD靠什么「赢」?|MemoryS 2026 | 雷峰网 独家丨继大疆押注后,智能派再获数亿元融资,或与拓竹正面硬刚 | 雷峰网 阿里视频生成大模型Wan2.7登顶DesignArena榜单 | 雷峰网 KV Cache需求暴涨32倍,AI如何重写存储产业链的「旧分工」?| MemoryS 2026观察 | 雷峰网 微软小冰,生不逢时 | 雷峰网 豆包APP实时语音通话升级全双工模型 抗干扰与低时延能力提升 | 雷峰网 中国充电联盟与万勋科技联合发布《中国新能源汽车自动充电用户行为洞察报告》加速自动充电规模商用 | 雷峰网 继“同事.skill”走红,周鸿祎回应“把自己炼成AI分身”:这才是数字分身的正确未来 | 雷峰网 章鱼动力获得新加坡顶级风投 K3领投的数亿元投资 | 雷峰网 港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026 | 雷峰网 独家丨前大疆T4悍将谢博文:从具身机器人转战桌面CNC,深圳再启「无限工坊」 | 雷峰网 2026淘宝直播三大主线:提效新品,造优质主播差异化,增优质内容曝光 | 雷峰网 阿里云百炼上线Agent记忆库,让「龙虾」应用更懂用户 | 雷峰网 百度官宣!Create2026百度AI开发者大会定档5月13至14日 | 雷峰网 印度禁止中国大陆产摄像头监控:花高价大批替换,国产厂商回应;传宇树科技与阿里达成出海战略合作;DeepSeek上线专家模式 | 雷峰网 20分钟破1000万!首日破3000万!创想三维2026全球3D打印类目众筹王者!AI+生态双向助推,3D打印布道者重新定义3D打印生态! | 雷峰网
CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界 | 雷峰网
2026-06-12 · via 雷峰网
CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界
稳定性,正在成为大模型落地的关键命题。

    作者丨郑佳美

    编辑丨马晓宁

当 AI 模型从“单次完成任务”走向真实世界部署时,真正的挑战不再只是参数规模和单点性能,而是模型能否在变化中保持稳定。

它要在持续出现的新类别中不遗忘旧知识,要从大规模真实数据中获得更强的泛化能力,要在多客户端、数据分布不断变化的环境下继续学习,也要把图像、视频和 3D 等不同视觉经验组织成统一理解。

这种变化也体现在 CVPR 2026 的相关研究趋势中。越来越多工作不再只追求某个单一任务上的性能提升,而是更关注模型在长期学习、真实数据、分布变化和多模态协同中的稳定性与适应能力。换句话说,模型不仅要“会做”,还要能在复杂环境中持续做得好。

这一趋势背后,反映的是大模型研究正在从“能力扩张”进入“能力管理”阶段。模型不仅要学得多,还要知道哪些旧知识值得保留,哪些经验可以迁移,哪些特征需要对齐,哪些模态能够互相补充。

无论是持续学习、数字人建模、联邦学习,还是统一大视觉模型,研究者真正关心的都是同一个问题:如何让 AI 在复杂、动态、不完整的现实环境中,依然保持可泛化、可适应、可协同和可持续进化的能力。

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

01

从样本回放到跨视觉协同

《Quantum-Gated Task-interaction Knowledge Distillation for Pre-trained Model-based Class-Incremental Learning》关注的是基于预训练模型的类增量学习问题,相关研究来自北京邮电大学信息与通信工程学院和教育部信息网络工程研究中心。

论文主要研究如何让模型在不断学习新类别的同时,尽量保留旧类别知识,减少灾难性遗忘。类增量学习的难点在于,模型会按任务顺序不断接触新类别,但测试时通常不知道样本来自哪个任务。

随着任务数量增加,不同任务的特征空间可能发生重叠,新任务学习容易覆盖旧任务知识,导致模型对旧类别识别能力下降。

近年来,基于预训练模型的类增量学习方法通常会冻结主干网络,只训练轻量级的 prompt 或 adapter 模块,以降低训练成本并保持基础表示能力。

但论文指出,现有方法往往缺少明确的任务交互机制:prompt 选择容易受相似度噪声影响,adapter 又常常把不同任务看成彼此独立的子空间,难以判断新样本应该借用哪些旧任务知识。

针对这一问题,论文提出了 QKD,也就是 Quantum-Gated Task-interaction Knowledge Distillation。它的核心思路是用量子门控机制来建模样本与不同任务之间的相关性,再根据这种相关性指导知识蒸馏和推理时的 adapter 融合。

简单来说,模型不仅要学习新任务,还要判断哪些旧任务和当前样本更相关,从而有选择地吸收旧知识,减少无关任务带来的干扰。

方法上,论文先为每个任务构建 task embedding,并通过参数化量子电路把样本特征和任务表示映射到更高维的 Hilbert 空间中,用量子门控输出样本到各任务的相关性权重。

随后,这些权重会被用于 task-interaction knowledge distillation,让当前 adapter 从更相关的历史 adapter 中学习特征信息,而不是平均吸收所有旧任务知识。

在推理阶段,论文继续复用这些量子门控得到的相关性权重,用来进行自适应 adapter 融合。这样训练和测试使用的是同一套任务相关性估计机制,可以减少训练阶段知识迁移和测试阶段任务路由之间的不一致问题。

实验方面,论文在 CIFAR-100、CUB-200、ImageNet-A、ImageNet-R 和 VTAB 等多个无样本回放类增量学习基准上进行了验证。雷峰网

结果显示,QKD 能够提升最终准确率和平均增量准确率,并且在多种设置下达到领先或有竞争力的表现。消融实验也表明,用量子门控替代普通余弦相似度或神经网络控制器后,模型能更好地捕捉复杂任务关系。

这篇论文的亮点在于,它把量子门控机制引入到类增量学习中的任务路由和知识蒸馏过程。相比简单地保存旧知识或独立训练不同任务 adapter,QKD 更关注任务之间的相关性建模,让模型在学习新类别时有选择地迁移旧任务知识。

总体来看,这项工作为预训练模型时代的持续学习提供了一种新的思路:模型不仅要避免遗忘,还要学会判断“哪些旧知识值得被当前任务继承”。

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

论文地址:https://arxiv.org/pdf/2604.11112v1

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

如果说这项工作关注的是模型在不断学习新任务时如何保留旧知识,那么《Large-scale Codec Avatars: The Unreasonable Effectiveness of Large-scale Avatar Pretraining》则把视角转向了大规模预训练在 3D 数字人建模中的作用。雷峰网(公众号:雷峰网)

它同样关心模型如何从大规模数据中获得更强的泛化能力,只不过应用对象从分类任务转向了可驱动的高质量数字人。论文主要研究如何在真实世界输入下,快速生成既能保持身份特征、又能进行精细表情和全身动作驱动的 3D 数字人。

这项任务的核心难点在于,高保真和强泛化之间长期存在矛盾。基于多视角影棚数据的方法通常能生成细节丰富、表情和动作控制精确的数字人,但采集成本高,也很难泛化到普通用户随手拍摄的真实世界视频。

而基于大规模野外数据训练的方法虽然泛化范围更广,但由于 3D 信息不完整,生成结果往往容易出现模糊、结构变形或细节不足的问题。

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

论文地址:https://arxiv.org/pdf/2604.02320v2

针对这一问题,论文提出了 Large-Scale Codec Avatars,也就是 LCA 框架。它借鉴大语言模型和视觉基础模型中的“预训练 + 后训练”思路,先在 100 万个真实世界单目人物视频上进行大规模预训练,学习人体外观和几何的通用先验;再用高质量多视角影棚数据进行后训练,提升模型的可驱动性、3D 完整性和视觉保真度。

方法上,LCA 会从全身图像和面部特写中提取图像 token,同时从模板人体网格中提取几何 token。模型通过图像注意力、几何注意力和多模态注意力融合不同来源的信息,再由 3D Gaussian 解码器生成数字人的几何和外观属性。

解码器分为 canonical 分支和 pose-dependent 分支,前者负责静态身份与外观,后者负责表情、眼神、手部姿态和服装形变等动态变化。

论文还展示了 LCA 的扩展能力。通过较小改动,它可以支持宽松服装变形和重新打光等功能,并且在没有直接监督的情况下,对眼镜、帽子、不同发型、不同服装甚至风格化角色都有较好的泛化能力。

实验结果显示,LCA 在多视角和单视角输入下都优于已有 3D 数字人方法,在面部细节、手指动作、身体姿态和身份保持方面表现更稳定。

这篇论文的亮点在于,它把 3D 数字人建模从“小规模高质量采集”推进到“大规模预训练驱动”的新范式。LCA 不只是提高了某个数字人模型的效果,而是证明了大规模预训练同样可以帮助 3D avatar 同时获得泛化能力和高保真表现。

总体来看,这项工作让数字人更接近真实应用场景:用户只需要少量普通图像或视频,就有可能快速生成一个可实时驱动、可保持身份、可表达细腻表情和动作的高质量 3D 数字人。

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

从持续学习到数字人预训练,前面两项工作都在讨论模型如何在复杂数据和真实应用条件下保持稳定能力。接下来,《From Selection to Scheduling: Federated Geometry-Aware Correction Makes Exemplar Replay Work Better under Continual Dynamic Heterogeneity》进一步把问题放到联邦学习场景中,关注多个客户端、数据不断变化、历史样本有限时,模型该如何更稳健地持续学习。

论文主要研究的是:在多个客户端不断学习新任务的过程中,如何更有效地利用有限的历史样本,减少模型对旧知识的遗忘,同时缓解不同客户端数据分布持续变化带来的影响。

这项任务的难点在于,联邦学习中的客户端通常不能共享原始数据,而且每个客户端看到的数据类别和分布并不一致。随着新任务不断到来,模型很容易被新类别影响,逐渐忘记过去学过的旧类别。

以往的样本回放方法大多关注“应该保存哪些代表性样本”,但论文指出,仅仅选出样本还不够,更关键的是如何在训练和推理阶段更好地使用这些样本。

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

论文地址:https://arxiv.org/pdf/2604.08617v1

针对这一问题,论文提出了 FEAT,也就是联邦几何感知校正方法。它的核心思路是从特征空间的几何结构入手,缓解客户端之间的数据异质性和类别不平衡问题。简单来说,模型不仅要记住过去任务中的样本,还要让不同客户端、不同任务学到的特征结构尽量保持一致,避免少数类特征被多数类“拉偏”。

方法上,FEAT 包含两个关键模块。第一个是 Geometric Structure Alignment,用固定共享的 ETF 原型作为参考结构,对齐特征之间的角度关系,从而让不同客户端和不同任务中的类别特征保持更稳定的几何分布。

第二个是 Energy-based Geometric Correction,它在推理阶段移除与当前任务无关的方向成分,减少模型对多数类的偏向,提高对少数类和旧类别的识别能力。

实验中,论文在 CIFAR10、CIFAR100 和 TinyImageNet-Subset 等数据集上进行验证,并设置了不同客户端数量、任务划分和异质性程度。结果显示,FEAT 能够在多种设置下提升 Top-1 Accuracy,并且可以与 Re-Fed+、FedCBDR 等已有样本回放方法结合使用,在保持较低通信开销的同时进一步提升性能。

这篇论文的亮点在于,它没有继续把重点放在“如何挑选回放样本”上,而是进一步思考“选出来的样本该如何被更有效地使用”。

通过几何结构对齐和推理阶段校正,FEAT 让联邦持续学习在面对动态异质性和类别不平衡时更加稳定。总体来看,这项工作为资源受限、多客户端、任务持续变化的实际联邦学习场景提供了一种更精细、更稳健的样本回放增强方案。

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

如果说 FEAT 关注的是多客户端、多任务环境下的持续学习稳定性,那么《Modeling Cross-vision Synergy for Unified Large Vision Model》则进一步讨论大视觉模型如何在更广泛的视觉模态之间建立协同关系,它面对的问题不再只是“如何保留旧知识”,而是如何让图像、视频和 3D 这几种视觉经验真正互相补充。

相关研究来自新加坡国立大学和南洋理工大学。论文主要研究如何让一个大视觉模型同时处理图像、视频和 3D 数据,并且不是简单地把不同模态放进同一个框架里,而是让它们之间真正形成互补和协同。

这项任务的背景在于,图像、视频和 3D 场景虽然形式不同,但本质上都来自视觉世界。图像更擅长提供颜色、纹理、布局等静态信息,视频包含运动和时间变化,3D 数据则能提供空间结构、距离和几何关系。

以往的统一视觉模型大多追求“功能整合”,也就是让一个模型能接收多种视觉输入,但不同模态之间缺少深入交互,模型很难把视频中的时间先验、3D 中的空间先验和图像中的视觉细节真正结合起来。

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

论文地址:https://arxiv.org/pdf/2603.03564v1

针对这一问题,论文提出了 PolyV 框架,目标是实现跨视觉协同。它采用稀疏 MoE 架构,并通过动态路由器协调不同专家模块,让每个专家学习特定模态的先验知识,同时又能在图像、视频和 3D 之间进行双向交互和相互补充。也就是说,模型不是把不同模态的特征简单拼接起来,而是让不同模态中的知识在推理过程中互相影响、互相增强。

训练上,论文设计了协同感知训练流程。第一阶段是模态特定预训练,让模型分别学习图像、视频和 3D 数据中的基础能力;第二阶段是跨视觉协同训练,包括粗粒度和细粒度两个层面。

粗粒度训练通过知识蒸馏引入视频基础模型和 3D 基础模型中的时间、空间先验;细粒度训练则进一步对齐不同模态中的对象属性、空间关系和事件一致性,使模型能在更细的层面上建立跨模态对应关系。

论文还引入了 synergy token,让模型在生成最终回答之前先形成一种中间的“协同表示”。这种设计相当于让模型先综合来自不同视觉模态的补充信息,再进行回答,从而提升它在空间推理、时间推理和跨模态理解任务中的表现。

实验中,PolyV 在图像、视频和 3D 理解相关的 10 个代表性基准上进行了验证,包括 MMStar、3DSRBench、MMSI-Bench、VideoMME、VSI-Bench、CVBench、ScanQA、SQA3D 和 Open-EQA 等任务。结果显示,PolyV 在多个任务上都优于已有模型,并且相比其基础模型 Qwen2.5-VL-7B,平均提升约 10%。

这篇论文的亮点在于,它把统一视觉模型从“能处理多种输入”推进到“能让多种视觉模态彼此协同”。过去的模型可能只是分别理解图像、视频或 3D,而 PolyV 试图让模型利用视频中的运动知识增强图像推理,用 3D 中的几何知识增强空间理解,再通过 MoE 和协同训练机制实现更灵活的视觉推理。

总体来看,这项工作强调的是下一代大视觉模型的一个重要方向:模型不仅要看得多,还要能把不同视觉经验组织起来,形成更接近人类视觉系统的综合理解能力。

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

去哪看 CVPR 核心【演讲/论文】详解?

为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货,雷峰网已全面上线【CVPR 2026 深度专区】

专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。

扫描下方二维码,或点击阅读原文关注专区。

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界

雷峰网原创文章,未经授权禁止转载。详情见转载须知

CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界