惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

E
Exploit-DB.com RSS Feed
Google Online Security Blog
Google Online Security Blog
SecWiki News
SecWiki News
Application and Cybersecurity Blog
Application and Cybersecurity Blog
The Last Watchdog
The Last Watchdog
GbyAI
GbyAI
Microsoft Azure Blog
Microsoft Azure Blog
MyScale Blog
MyScale Blog
Y
Y Combinator Blog
Microsoft Security Blog
Microsoft Security Blog
Martin Fowler
Martin Fowler
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
B
Blog RSS Feed
Hacker News - Newest:
Hacker News - Newest: "LLM"
D
DataBreaches.Net
Cloudbric
Cloudbric
Help Net Security
Help Net Security
B
Blog
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
罗磊的独立博客
PCI Perspectives
PCI Perspectives
Apple Machine Learning Research
Apple Machine Learning Research
量子位
P
Proofpoint News Feed
N
News and Events Feed by Topic
Attack and Defense Labs
Attack and Defense Labs
Stack Overflow Blog
Stack Overflow Blog
Recent Commits to openclaw:main
Recent Commits to openclaw:main
T
The Blog of Author Tim Ferriss
J
Java Code Geeks
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
人人都是产品经理
人人都是产品经理
小众软件
小众软件
www.infosecurity-magazine.com
www.infosecurity-magazine.com
The Register - Security
The Register - Security
S
Secure Thoughts
The GitHub Blog
The GitHub Blog
Forbes - Security
Forbes - Security
M
MIT News - Artificial intelligence
Recorded Future
Recorded Future
H
Heimdal Security Blog
S
Security Archives - TechRepublic
WordPress大学
WordPress大学
C
Cisco Blogs
博客园 - 【当耐特】
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
C
Check Point Blog
AI
AI
美团技术团队
Blog — PlanetScale
Blog — PlanetScale

雷峰网

1.8亿人在小红书读书:图书业在小红书电商营收规模年增超30% | 雷峰网 减重300kg,首搭5nm智驾芯片:2026款乐道L90正式亮相 | 雷峰网 阶跃和千⾥科技官宣战略合作:打造原⽣智驾基座模型,提升物理AI能⼒上限 | 雷峰网 “还债骑手”被强制下线240次:“开始我很反感过劳提醒,影响赚钱” | 雷峰网 石头科技:2025年营收高增56.51%,2026Q1营收增23.31% | 雷峰网 Mythos引爆攻击工业化时代,奇安信:构建三位一体内生安全体系是破解之道 | 雷峰网 曝两家科技大厂争投DeepSeek,估值飙至200亿美元;小米深夜放大招!最强大模型MiMo-V2.5系列发布;微软 Xbox 部门将裁员15% | 雷峰网 RGB-Mini LED电视普及风暴,海信正式发布小墨E5S Pro | 雷峰网 标配8255芯片与CDC,奇瑞试图终结“燃油车无智驾”时代 | 雷峰网 德赛西威也不相信,智驾能让Tier1躺着赚钱 | 雷峰网 找来刘翔做代言人,可能是智己LS8最好的一步棋 | 雷峰网 「中国版Grok上车」分水岭:阶跃交出首份量产答卷 | 雷峰网 百度Create大会双主论坛议程揭晓,多项重磅升级发布将集中亮相 | 雷峰网 泄露用户隐私!曝某AI助手将B用户简历发给A用户;苹果更换CEO原因曝光;微信宣布5国可用微信支付;航旅纵横「崩」了一天,借钱功能却正常 | 雷峰网 一季度交付1200件精益工具,希音深入技术创新提升按需时尚竞争力 | 雷峰网 从“替代”到“重构”:联想开天“1+2+N”如何重写信创AI PC逻辑? | 雷峰网 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 | 雷峰网 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 死亡率「99%」的芯片创业淘汰赛,为旌科技为何能活下来? | 雷峰网 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 | 雷峰网 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 | 雷峰网 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 | 雷峰网 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 | 雷峰网 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 | 雷峰网 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 | 雷峰网 Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比 | 雷峰网 阿里发布Qwen3.6-Max预览版,登顶最佳国产模型 | 雷峰网 郭达雅加入巨头背后:顶尖AI人才为何向大厂「回流」? | 雷峰网 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 | 雷峰网 智元邓泰华宣布:具身智能行业进入「部署态」 | 雷峰网 独家丨前安克研发总监丁准离职创业,获头部美元基金押注 | 雷峰网 曝DeepSeek V4将于本周发布,梁文锋对外融资20亿;雷军在服务区被堵车里维权?小米徐洁云回应;宇树H1半马被担架抬离赛道丨雷峰早报 | 雷峰网 广州一斗虾赛现场各路选手比拼蒸馏,现场诞生近50个“技能包” | 雷峰网 智元 ×Hitch Open|深耕具身智能,共建全球物理智能学术生态 | 雷峰网 2026广汽科技日重磅发布五大核心技术,以“科技向心”引领智能出行时代 | 雷峰网 一汽大众与卓驭科技的七年协同,交出一份燃油车智能化的成绩单 | 雷峰网 腾讯的长青游戏,今天又进化了一次 | 雷峰网 智己LS8上市:24.98万起售,刘翔站台的这台「最强8系」能打吗? | 雷峰网 全球1100万台出货,追觅打造最聪明的扫地机 | 雷峰网 阶跃率先跑通“中国版 Grok 上车”量产交付!超级 Eva 搭载极氪8X 今起上市 物理AI时代,为什么需要一颗“舱驾融合”芯片? | 雷峰网 逸安启欢迎问界加入,与宝马、梅赛德斯-奔驰携手, 共同推进中国豪华超充网络的发展 | 雷峰网 逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座 | 雷峰网 独家丨AWS大中华区多位L8高管迎来变动,SA部门负责人代闻离职 | 雷峰网 头部品牌 “加码”东南亚 泡泡玛特新品在Lazada发售 | 雷峰网 D19起售价21.98万元,零跑能成为9系SUV的“破局者”吗? | 雷峰网 全球首款!进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1 4小时闭门会,15位运动科技创业者聊透了哪些「不能公开说」的真相 | 雷峰网 在女性黑客松上,看见AI硬件的另一种可能 | 雷峰网 Plaud 爆火后,YoooClaw 要改写 AI 硬件的剧本 黄仁勋:DeepSeek在华为芯片上发布「很可怕」;抖音集团副总裁辟谣郭达雅亿元年薪入职字节;五角大楼与通用、福特等汽车制造商讨论造军火 | 雷峰网 正式官宣!佑驾创新与荣耀(HONOR)达成合作,以“无人车+机器人”打通全链路无人化闭环 | 雷峰网 解耦性能与厚重,英特尔AI高静Plus正在重写游戏本定义 | 雷峰网 独家丨Somnia Lab 完成千万美元天使轮融资,瞄准人机关系入口与万亿级具身情感生态 | 雷峰网 腾讯发布并开源混元世界模型 2.0,一句话造出3D世界,兼容游戏引擎! | 雷峰网 阿里发布世界模型HappyOyster,与谷歌Genie3竞争 | 雷峰网 从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情? | 雷峰网 格力高管炮轰友商被狂怼:又当又立!「真铜实料」这四字不姓格;美国将退还超1万亿元关税;品牌GMV高速增长,速卖通将成品牌出海全新主场 | 雷峰网 全球线上首发!辉瑞新一代减重药先维盈®开启预售服务,美团买药又下一城 | 雷峰网 傲基「生死局」:绝地反杀与盈利迷途 | 雷峰网 阿里ATH发布AI开发工具Meoo,已打通阿里云核心产品 | 雷峰网 美团闪购升级闪电仓供应链服务平台:向全行业商家开放即时零售供应链基建 | 雷峰网 阿里云连续5年稳居游戏云市场份额第一! | 雷峰网 与阿里成立合资公司后,新世界旗下Gmarket商品交易额(GMV)实现双位数增长 | 雷峰网 度小满发布DXMClawPay 面向Skill开发者提供一站式支付接入方案 | 雷峰网 滴滴自动驾驶全球化布局加快,年内在阿联酋开展试点 | 雷峰网 金立创始人刘立荣消失8年后最新动向:疑在印尼卖家具;月薪3万,DeepSeek聘人去内蒙草原守机房;比亚迪坪山园区大火,公司回应火势已扑灭 | 雷峰网 水下绞杀:清洁机器人渠道里的生意与生死 | 雷峰网 墨腾报告:东南亚电商平台成交额五年翻三倍 三大平台瓜分万亿市场 | 雷峰网 火山引擎:Seedance 2.0 API 服务全面开放 | 雷峰网 中远海运特运X火山引擎:“数字员工”驶向智慧航运新蓝海 | 雷峰网 重新认识具身行业,从自变量的这封邀请函开始 | 雷峰网 做了5年3D打印机,我发现了世界模型的Scaling Law | 雷峰网 别克×火山引擎:至境E7行业首发搭载豆包大模型最新版 | 雷峰网 强强联手,追觅牵手阿里速卖通,将在海外加大投入 | 雷峰网 推理卡毛利率下滑超7%,天数智芯「降价换量」的买卖值不值? | 雷峰网 明日新程完成连续两轮融资,领跑Harness群体多智能体赛道 | 雷峰网 「作弊」内幕曝光!3DMark回应将某知名国产手机除名;李想朋友圈炮轰东风日产恶意拉踩,后者高管回应;美的空调又发行业首创产品 | 雷峰网 50万起步的蔚来ES9,能否站稳高端? | 雷峰网 汽车行业已在阿里云上使用超10万卡“真武”PPU研发智驾 | 雷峰网 百度智能云联合多家头部具身智能企业,打造具身智能数据超市 | 雷峰网 从汽车到物理 AI:何小鹏眼中的智能汽车下半场 | 雷峰网 首个跑通端到端闭环的全模态安全脱敏的龙虾盒子,无问芯穹InfiniClaw Box让本地龙虾也能放心用! | 雷峰网 当参数不再决定胜负,AI时代的企业级SSD靠什么「赢」?|MemoryS 2026 | 雷峰网 独家丨继大疆押注后,智能派再获数亿元融资,或与拓竹正面硬刚 | 雷峰网 阿里视频生成大模型Wan2.7登顶DesignArena榜单 | 雷峰网 KV Cache需求暴涨32倍,AI如何重写存储产业链的「旧分工」?| MemoryS 2026观察 | 雷峰网 微软小冰,生不逢时 | 雷峰网 豆包APP实时语音通话升级全双工模型 抗干扰与低时延能力提升 | 雷峰网 中国充电联盟与万勋科技联合发布《中国新能源汽车自动充电用户行为洞察报告》加速自动充电规模商用 | 雷峰网 继“同事.skill”走红,周鸿祎回应“把自己炼成AI分身”:这才是数字分身的正确未来 | 雷峰网 章鱼动力获得新加坡顶级风投 K3领投的数亿元投资 | 雷峰网 港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026 | 雷峰网 独家丨前大疆T4悍将谢博文:从具身机器人转战桌面CNC,深圳再启「无限工坊」 | 雷峰网 2026淘宝直播三大主线:提效新品,造优质主播差异化,增优质内容曝光 | 雷峰网 阿里云百炼上线Agent记忆库,让「龙虾」应用更懂用户 | 雷峰网 百度官宣!Create2026百度AI开发者大会定档5月13至14日 | 雷峰网 印度禁止中国大陆产摄像头监控:花高价大批替换,国产厂商回应;传宇树科技与阿里达成出海战略合作;DeepSeek上线专家模式 | 雷峰网 20分钟破1000万!首日破3000万!创想三维2026全球3D打印类目众筹王者!AI+生态双向助推,3D打印布道者重新定义3D打印生态! | 雷峰网
ICML 2026:视觉自恢复 + 双奖励强化学习,提升受损图像理解 | 雷峰网
2026-06-16 · via 雷峰网

原文作者:公众号“Today读什么”

原文链接:https://mp.weixin.qq.com/s/BrsWJJAv22qHVa_gfv2cpg

一张照片被压缩、噪声、暗光和模糊破坏后,多模态模型仍然可以写出一段逻辑完整的分析。但分析越流畅,不代表它看到的证据越充分:车头朝向已经模糊,模型仍能解释车辆为何“直行”;公交车轮廓已经重叠,它依然可以自信地数出三辆。

过去的方法通常让视觉编码器适应噪声,或者让模型先用文字分析图像受到了什么破坏。Robust-U1 换了一条路线:**既然关键视觉信息已经丢失,就先生成一张恢复后的图像,再让模型同时查看原图与恢复图完成回答。**方法由图像恢复监督训练、带双重视觉奖励的强化学习,以及双图联合推理组成。实验结果表明,性能提升并不只是来自“生成了一张更好看的图片”,而是恢复出的视觉证据确实帮助模型回答了原本看不清的问题。

Motivation

Robust-U1 要处理的核心矛盾是:多模态模型可以继续推理,却无法仅凭语言补回已经消失的视觉细节。

视觉鲁棒性研究此前主要沿着两条路线展开。特征对齐方法让干净图像和受损图像在视觉编码空间中尽量接近,能够提高预测稳定性,却很难解释模型究竟恢复了什么信息。Robust-R1 这样的工作把过程显式化,让模型描述压缩、噪声或暗光如何影响画面,再依据描述进行推理。

文字能够提醒模型“这里可能看不清”,却无法重建车辆朝向、物体数量、边缘位置或细小文字。视觉证据已经被破坏时,再长的推理链也可能只是围绕错误观察组织出一段连贯解释。

作者由此提出一个更直接的问题:具备图像生成能力的统一多模态模型,能否自己完成视觉恢复,并把恢复结果作为中间推理证据?这不是在模型前面外挂一个图像修复器,而是让理解、恢复和回答由同一个模型协同完成。

现象剖析:推理补不回像素

论文中的案例很好地揭示了旧路线的限制。一张严重压缩且光照不足的道路图片里,前方车辆实际向左行驶。Qwen2.5-VL 判断车辆直行;Robust-R1 能识别暗光与压缩问题,也能解释这些退化会遮蔽方向信息,最终仍给出“直行”。

这里缺少的不是对退化类型的认识,而是决定答案的视觉细节。模型知道自己看不清,却没有新的视觉证据可以使用。

基础模型 BAGEL 已经具备图像生成能力,也尝试恢复画面,但生成结果改变了原场景,推理随后被错误恢复图带偏。这又引出第二个问题:**恢复图本身也可能产生幻觉。**如果模型只查看恢复图,修复过程新增的物体、方向或纹理会被当成事实。

Robust-U1 因此没有把恢复图当作唯一输入。原始受损图仍被保留,恢复图负责补充结构和语义,模型在两份视觉证据之间完成判断。这个设计让恢复不再等同于“重画一张图”,而是成为可以被原图约束的中间推理步骤。

核心解读:恢复之后再理解

Robust-U1 建立在 BAGEL 之上。BAGEL 同时支持多模态理解和图像生成,因此同一套模型既能从受损图片生成恢复图,也能读取两张图片回答问题。

训练过程分成三个连续阶段。

模型先在 ImageNet-C 的 75 万组受损—干净图像对上进行监督微调。受损图像被编码为条件,干净图像进入 rectified flow 的去噪目标,生成模块由此学习近似的退化逆过程。经过这一阶段,模型已经会去除主要噪声和模糊,但恢复结果仍容易缺少细节,或在语义上偏离原图。

接下来的强化学习不直接奖励最终问答正确率,而是约束恢复图本身。像素结构奖励采用 SSIM,检查局部亮度、对比度和结构是否接近干净图;语义一致性奖励通过冻结的 CLIP 比较两张图的表示,避免画面看起来清晰,却把对象、颜色或场景恢复错。

这两个奖励承担的职责并不相同。SSIM 更关心轮廓、边缘和局部结构,CLIP 奖励更关心“画面讲的是不是同一件事”。只有像素约束,模型可能生成清晰但语义错误的图;只强调语义,又可能忽略回答计数、方向和文字问题所需的精细结构。

恢复能力稳定后,模型进入双图推理训练。输入按“受损图—恢复图—问题”的方式交错组织,并配合推理链与答案进行下一词预测。模型由此学会以恢复图作为主要观察,同时回看受损图,检查恢复过程中可能出现的歧义。

Robust-U1 的整体逻辑可以概括为:

先恢复可用的视觉证据,再让原图和恢复图互相校验,最后完成语言推理。

图表深度解读

图1:三种视觉鲁棒性路线

ICML 2026:视觉自恢复 + 双奖励强化学习,提升受损图像理解

画面描述:左侧是受损图与干净图的特征对齐,中间是用文字描述退化影响,右侧的 Robust-U1 会直接生成恢复图,并把它加入多模态推理。

深度解读:这张图划分的不是三个实现模块,而是三种不同的处理层级。特征对齐调整内部表示,文字推理解释损坏,视觉自恢复则尝试重新提供任务所缺少的证据。Robust-U1 的提升来自信息层级发生了变化:模型不再只学习如何容忍受损视觉,而是主动重建可供判断的内容。

图2:三阶段训练流程

ICML 2026:视觉自恢复 + 双奖励强化学习,提升受损图像理解

画面描述:生成模块先通过监督训练学习恢复,再通过 Flow-GRPO 接受像素和语义奖励,随后理解模块与生成模块共同学习双图推理。

深度解读:三阶段没有被合并成一个端到端目标,是因为它们处理的是不同风险。监督训练解决“能不能恢复”,强化学习解决“恢复得是否可信”,联合推理解决“模型会不会使用恢复结果”。直接训练问答,模型可能绕过恢复分支;只训练恢复,又不能保证恢复内容对下游问题有用。

图3:恢复质量的逐步变化

ICML 2026:视觉自恢复 + 双奖励强化学习,提升受损图像理解

画面描述:图中依次展示受损输入、原始 BAGEL、监督微调、单独使用像素奖励、单独使用语义奖励、完整模型和干净真值。

深度解读:监督微调已经能去掉大量退化,但画面细节仍然松散;像素奖励强化边缘和局部结构,语义奖励改善纹理与内容一致性,完整模型在两者之间取得较稳定的平衡。表 5 也对应这一变化:PSNR 从 BAGEL 的 14.37 提高到 21.49,SSIM 从 0.4722 提高到 0.6314,LPIPS 从 0.5092 降至 0.3223。

实验结果说明了什么?

R-Bench 同时包含选择题、开放式视觉问答和图像描述,并按照退化程度分为低、中、高三个等级。Robust-U1 的综合得分为 0.7398,明显高于基础模型 BAGEL 的 0.5770,以及文本推理方法 Robust-R1 的 0.5017。图像描述任务上的差距尤其明显,说明恢复图提供的不只是分类线索,也补充了场景级内容。

在 MMMB、MMStar 和 RealWorldQA 的人工退化实验中,优势随着破坏程度增加仍然存在。MMMB 从干净图到 100% 退化时,Robust-U1 只下降 1.57 分;BAGEL 下降 3.44 分,Robust-R1 下降 6.06 分。

消融结果把性能来源拆得更清楚。取消双图推理后,R-Bench 综合分从 0.7398 降至 0.6623,说明恢复图必须真正进入推理过程。移除像素奖励或语义奖励,得分分别降到 0.7257 和 0.7236;高强度退化下,缺少语义奖励的损失更明显,因为模型更容易生成外观合理、内容错误的恢复图。

外接图像修复器也没有得到同样效果。由专用恢复模型预处理、再交给 Qwen2.5-VL-7B 的方案,最高综合分只有 0.5511。修复模型通常针对单一退化类型优化,而且追求感知质量,不一定保留问答所需的视觉证据。

为什么这篇工作值得关注?

Robust-U1 把多模态推理的中间过程从纯文本扩展到了视觉空间。过去的思路是让模型对着坏图“想得更仔细”,现在则允许模型先生成一份可以检查的视觉假设,再依据原图和恢复图回答。

这种方式对暗光驾驶、遥感、监控和医学影像很有吸引力,因为这些任务的错误经常来自感知信息缺失,而不是语言推理不足。恢复图还提供了一种可观察的中间结果:系统可以直接查看模型依据了什么视觉内容,而不是只能分析隐藏特征。

边界也很清楚。恢复不是找回被物理删除的信息,而是依据训练分布进行估计,仍有生成错误的可能。论文报告恢复前后答案一致率为 92.3%,说明语义奖励压低了幻觉风险,却没有消除它。训练成本同样不低,仅恢复监督阶段就使用了 1920 个 L20 GPU 小时;推理时额外生成图像,也会增加延迟。

此外,完整训练依赖成对的受损—干净图片。无干净参考的语义奖励能够改善结果,但综合分只有 0.6233,仍明显低于完整方法。当前实验集中在静态图片,视频中的时间一致性、未知真实退化和高风险场景下的错误校准仍需继续验证。

研究脉络:从抵抗退化到恢复证据

1. TeCoA

2023|视觉语言鲁棒对齐

通过对抗训练使干净与扰动图像的视觉表示更接近,改善局部攻击下的稳定性。

2. R-Bench: Are Your Large Multimodal Models Robust to Real-World Corruptions?

2024|IEEE JSTSP

系统评测噪声、压缩、暗光等真实退化对多模态模型的影响,让视觉退化成为独立的评测问题。

3. Robust CLIP

2024|视觉编码器鲁棒化

在 CLIP 表示层提高对扰动的抵抗能力,但恢复过程仍然隐藏在特征空间中。

4. Robust LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for MLLMs

2025|ICCV Workshops

将鲁棒视觉编码器接入多模态模型,研究视觉前端的抗扰动能力能否传递到语言理解。

5. Thinking with Generated Images

2025|视觉辅助推理

开始让模型生成辅助图像参与思考,视觉内容从输入模态变成了中间推理载体。

6. Robust-R1

2026|文本化退化推理

显式识别退化类型及其语义影响,提高可解释性,但中间过程仍然无法补充像素证据。

7. Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

2026|ICML

把图像恢复纳入统一多模态模型的推理链,用像素—语义双奖励约束恢复结果,再联合原图完成判断。

总结一下

Robust-U1 不是把传统图像修复模型接到多模态模型前面。它重新安排了受损视觉理解的顺序:当输入证据不足时,模型先生成恢复图,再把恢复结果与原始输入共同纳入推理。

实验支持了这条路线,但也提醒我们,生成出来的清晰画面并不自动等于可靠证据。像素结构、语义一致性和原图校验缺少任何一项,恢复过程都可能把模型从“看不清”带到“看错了”。

它提出的是一个方向性变化:多模态模型面对受损输入时,不必永远被动适应,也可以主动重建视觉证据;而这份证据必须接受约束和交叉检查,才能进入最终判断。


  • • 论文题目:Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

雷峰网(公众号:雷峰网)