惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

GbyAI
GbyAI
T
Tenable Blog
Webroot Blog
Webroot Blog
L
Lohrmann on Cybersecurity
S
Securelist
S
Schneier on Security
NISL@THU
NISL@THU
Know Your Adversary
Know Your Adversary
C
Cybersecurity and Infrastructure Security Agency CISA
T
The Exploit Database - CXSecurity.com
L
LINUX DO - 热门话题
C
CXSECURITY Database RSS Feed - CXSecurity.com
O
OpenAI News
I
Intezer
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
TaoSecurity Blog
TaoSecurity Blog
S
Secure Thoughts
Application and Cybersecurity Blog
Application and Cybersecurity Blog
P
Privacy International News Feed
H
Hacker News: Front Page
N
Netflix TechBlog - Medium
M
MIT News - Artificial intelligence
博客园 - Franky
PCI Perspectives
PCI Perspectives
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Microsoft Azure Blog
Microsoft Azure Blog
MongoDB | Blog
MongoDB | Blog
L
LangChain Blog
P
Proofpoint News Feed
S
Security Affairs
WordPress大学
WordPress大学
The Last Watchdog
The Last Watchdog
S
SegmentFault 最新的问题
小众软件
小众软件
F
Full Disclosure
博客园 - 叶小钗
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
T
The Blog of Author Tim Ferriss
Simon Willison's Weblog
Simon Willison's Weblog
P
Palo Alto Networks Blog
Security Latest
Security Latest
P
Proofpoint News Feed
月光博客
月光博客
T
Tailwind CSS Blog
Scott Helme
Scott Helme
Hacker News - Newest:
Hacker News - Newest: "LLM"
Google Online Security Blog
Google Online Security Blog
T
Threat Research - Cisco Blogs
Help Net Security
Help Net Security
Project Zero
Project Zero

雷峰网

1.8亿人在小红书读书:图书业在小红书电商营收规模年增超30% | 雷峰网 减重300kg,首搭5nm智驾芯片:2026款乐道L90正式亮相 | 雷峰网 阶跃和千⾥科技官宣战略合作:打造原⽣智驾基座模型,提升物理AI能⼒上限 | 雷峰网 “还债骑手”被强制下线240次:“开始我很反感过劳提醒,影响赚钱” | 雷峰网 石头科技:2025年营收高增56.51%,2026Q1营收增23.31% | 雷峰网 Mythos引爆攻击工业化时代,奇安信:构建三位一体内生安全体系是破解之道 | 雷峰网 曝两家科技大厂争投DeepSeek,估值飙至200亿美元;小米深夜放大招!最强大模型MiMo-V2.5系列发布;微软 Xbox 部门将裁员15% | 雷峰网 RGB-Mini LED电视普及风暴,海信正式发布小墨E5S Pro | 雷峰网 标配8255芯片与CDC,奇瑞试图终结“燃油车无智驾”时代 | 雷峰网 德赛西威也不相信,智驾能让Tier1躺着赚钱 | 雷峰网 找来刘翔做代言人,可能是智己LS8最好的一步棋 | 雷峰网 「中国版Grok上车」分水岭:阶跃交出首份量产答卷 | 雷峰网 百度Create大会双主论坛议程揭晓,多项重磅升级发布将集中亮相 | 雷峰网 泄露用户隐私!曝某AI助手将B用户简历发给A用户;苹果更换CEO原因曝光;微信宣布5国可用微信支付;航旅纵横「崩」了一天,借钱功能却正常 | 雷峰网 一季度交付1200件精益工具,希音深入技术创新提升按需时尚竞争力 | 雷峰网 从“替代”到“重构”:联想开天“1+2+N”如何重写信创AI PC逻辑? | 雷峰网 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 | 雷峰网 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 死亡率「99%」的芯片创业淘汰赛,为旌科技为何能活下来? | 雷峰网 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 | 雷峰网 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 | 雷峰网 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 | 雷峰网 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 | 雷峰网 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 | 雷峰网 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 | 雷峰网 Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比 | 雷峰网 阿里发布Qwen3.6-Max预览版,登顶最佳国产模型 | 雷峰网 郭达雅加入巨头背后:顶尖AI人才为何向大厂「回流」? | 雷峰网 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 | 雷峰网 智元邓泰华宣布:具身智能行业进入「部署态」 | 雷峰网 独家丨前安克研发总监丁准离职创业,获头部美元基金押注 | 雷峰网 曝DeepSeek V4将于本周发布,梁文锋对外融资20亿;雷军在服务区被堵车里维权?小米徐洁云回应;宇树H1半马被担架抬离赛道丨雷峰早报 | 雷峰网 广州一斗虾赛现场各路选手比拼蒸馏,现场诞生近50个“技能包” | 雷峰网 智元 ×Hitch Open|深耕具身智能,共建全球物理智能学术生态 | 雷峰网 2026广汽科技日重磅发布五大核心技术,以“科技向心”引领智能出行时代 | 雷峰网 一汽大众与卓驭科技的七年协同,交出一份燃油车智能化的成绩单 | 雷峰网 腾讯的长青游戏,今天又进化了一次 | 雷峰网 智己LS8上市:24.98万起售,刘翔站台的这台「最强8系」能打吗? | 雷峰网 全球1100万台出货,追觅打造最聪明的扫地机 | 雷峰网 阶跃率先跑通“中国版 Grok 上车”量产交付!超级 Eva 搭载极氪8X 今起上市 物理AI时代,为什么需要一颗“舱驾融合”芯片? | 雷峰网 逸安启欢迎问界加入,与宝马、梅赛德斯-奔驰携手, 共同推进中国豪华超充网络的发展 | 雷峰网 逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座 | 雷峰网 独家丨AWS大中华区多位L8高管迎来变动,SA部门负责人代闻离职 | 雷峰网 头部品牌 “加码”东南亚 泡泡玛特新品在Lazada发售 | 雷峰网 D19起售价21.98万元,零跑能成为9系SUV的“破局者”吗? | 雷峰网 全球首款!进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1 4小时闭门会,15位运动科技创业者聊透了哪些「不能公开说」的真相 | 雷峰网 在女性黑客松上,看见AI硬件的另一种可能 | 雷峰网 Plaud 爆火后,YoooClaw 要改写 AI 硬件的剧本 黄仁勋:DeepSeek在华为芯片上发布「很可怕」;抖音集团副总裁辟谣郭达雅亿元年薪入职字节;五角大楼与通用、福特等汽车制造商讨论造军火 | 雷峰网 正式官宣!佑驾创新与荣耀(HONOR)达成合作,以“无人车+机器人”打通全链路无人化闭环 | 雷峰网 解耦性能与厚重,英特尔AI高静Plus正在重写游戏本定义 | 雷峰网 独家丨Somnia Lab 完成千万美元天使轮融资,瞄准人机关系入口与万亿级具身情感生态 | 雷峰网 腾讯发布并开源混元世界模型 2.0,一句话造出3D世界,兼容游戏引擎! | 雷峰网 阿里发布世界模型HappyOyster,与谷歌Genie3竞争 | 雷峰网 从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情? | 雷峰网 格力高管炮轰友商被狂怼:又当又立!「真铜实料」这四字不姓格;美国将退还超1万亿元关税;品牌GMV高速增长,速卖通将成品牌出海全新主场 | 雷峰网 全球线上首发!辉瑞新一代减重药先维盈®开启预售服务,美团买药又下一城 | 雷峰网 傲基「生死局」:绝地反杀与盈利迷途 | 雷峰网 阿里ATH发布AI开发工具Meoo,已打通阿里云核心产品 | 雷峰网 美团闪购升级闪电仓供应链服务平台:向全行业商家开放即时零售供应链基建 | 雷峰网 阿里云连续5年稳居游戏云市场份额第一! | 雷峰网 与阿里成立合资公司后,新世界旗下Gmarket商品交易额(GMV)实现双位数增长 | 雷峰网 度小满发布DXMClawPay 面向Skill开发者提供一站式支付接入方案 | 雷峰网 滴滴自动驾驶全球化布局加快,年内在阿联酋开展试点 | 雷峰网 金立创始人刘立荣消失8年后最新动向:疑在印尼卖家具;月薪3万,DeepSeek聘人去内蒙草原守机房;比亚迪坪山园区大火,公司回应火势已扑灭 | 雷峰网 水下绞杀:清洁机器人渠道里的生意与生死 | 雷峰网 墨腾报告:东南亚电商平台成交额五年翻三倍 三大平台瓜分万亿市场 | 雷峰网 火山引擎:Seedance 2.0 API 服务全面开放 | 雷峰网 中远海运特运X火山引擎:“数字员工”驶向智慧航运新蓝海 | 雷峰网 重新认识具身行业,从自变量的这封邀请函开始 | 雷峰网 做了5年3D打印机,我发现了世界模型的Scaling Law | 雷峰网 别克×火山引擎:至境E7行业首发搭载豆包大模型最新版 | 雷峰网 强强联手,追觅牵手阿里速卖通,将在海外加大投入 | 雷峰网 推理卡毛利率下滑超7%,天数智芯「降价换量」的买卖值不值? | 雷峰网 明日新程完成连续两轮融资,领跑Harness群体多智能体赛道 | 雷峰网 「作弊」内幕曝光!3DMark回应将某知名国产手机除名;李想朋友圈炮轰东风日产恶意拉踩,后者高管回应;美的空调又发行业首创产品 | 雷峰网 50万起步的蔚来ES9,能否站稳高端? | 雷峰网 汽车行业已在阿里云上使用超10万卡“真武”PPU研发智驾 | 雷峰网 百度智能云联合多家头部具身智能企业,打造具身智能数据超市 | 雷峰网 从汽车到物理 AI:何小鹏眼中的智能汽车下半场 | 雷峰网 首个跑通端到端闭环的全模态安全脱敏的龙虾盒子,无问芯穹InfiniClaw Box让本地龙虾也能放心用! | 雷峰网 当参数不再决定胜负,AI时代的企业级SSD靠什么「赢」?|MemoryS 2026 | 雷峰网 独家丨继大疆押注后,智能派再获数亿元融资,或与拓竹正面硬刚 | 雷峰网 阿里视频生成大模型Wan2.7登顶DesignArena榜单 | 雷峰网 KV Cache需求暴涨32倍,AI如何重写存储产业链的「旧分工」?| MemoryS 2026观察 | 雷峰网 微软小冰,生不逢时 | 雷峰网 豆包APP实时语音通话升级全双工模型 抗干扰与低时延能力提升 | 雷峰网 中国充电联盟与万勋科技联合发布《中国新能源汽车自动充电用户行为洞察报告》加速自动充电规模商用 | 雷峰网 继“同事.skill”走红,周鸿祎回应“把自己炼成AI分身”:这才是数字分身的正确未来 | 雷峰网 章鱼动力获得新加坡顶级风投 K3领投的数亿元投资 | 雷峰网 港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026 | 雷峰网 独家丨前大疆T4悍将谢博文:从具身机器人转战桌面CNC,深圳再启「无限工坊」 | 雷峰网 2026淘宝直播三大主线:提效新品,造优质主播差异化,增优质内容曝光 | 雷峰网 阿里云百炼上线Agent记忆库,让「龙虾」应用更懂用户 | 雷峰网 百度官宣!Create2026百度AI开发者大会定档5月13至14日 | 雷峰网 印度禁止中国大陆产摄像头监控:花高价大批替换,国产厂商回应;传宇树科技与阿里达成出海战略合作;DeepSeek上线专家模式 | 雷峰网 20分钟破1000万!首日破3000万!创想三维2026全球3D打印类目众筹王者!AI+生态双向助推,3D打印布道者重新定义3D打印生态! | 雷峰网
CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定
2026-04-30 · via 雷峰网

过去几年,视觉生成与视觉理解领域的技术推进,整体上始终沿着一条相对明确的路径展开:当一套建模范式被验证有效之后,后续的大量工作往往都会围绕这套既有框架持续做模型扩容、训练增强、采样优化与局部模块修补,以此换取更高的性能上限。

无论是扩散生成、视频 world model,还是动作建模与视觉匹配,主流研究在很长时间里都更多表现为对既有系统的持续加固,而不是对底层假设本身的重新审视。

但从今年 CVPR 集中出现的一批代表性工作来看,这种相对稳定的技术推进逻辑正在发生值得警惕的变化。越来越多研究已经不再满足于在现有模型框架内部继续做增量式性能修补,而是开始系统性地把问题重新拉回到那些长期被工程实践视为“默认正确”的基础设定上。

扩散模型中的引导机制是否真的合理,视频生成是否必须建立在 diffusion 的反复去噪之上,生成模型所学习的预测对象是否从一开始就遵循了最自然的数据流形,以及人体动作生成与语义对应任务中长期被粗粒度评价掩盖的控制边界和泛化边界,是否都需要被重新定义。

这意味着,顶会论文所呈现出的竞争重点正在悄然发生迁移。相比于过去更多强调“在原有范式内把模型做得更强、把指标推得更高”,这一批工作更值得注意的地方在于,它们开始同步触碰那些决定模型行为方式的底层建模前提,并试图重新建立新的生成目标、控制机制、主干架构与表示逻辑。

换句话说,视觉 AI 的下一轮竞争,正在逐渐从性能增量竞争,转向对既有默认设定的回溯性重写。

视觉生成开始重写基础机制

这一趋势首先体现在由上海交通大学和 vivo BlueImage Lab 共同提出的《C²FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》上。

Classifier-Free Guidance(CFG)作为条件扩散模型中最常用的生成引导机制,几乎已经成为默认组件:通过调节 conditional 分支和 unconditional 分支之间的 guidance strength 来增强模型对条件信息的服从程度,从而提升生成质量。

但长期以来,这一过程主要依赖固定 guidance weight 或少量经验化动态调整,真正的问题在于,扩散过程内部的噪声结构和 score 差异并不是静止的,而是随着时间步不断变化,固定的引导强度很难在整个采样阶段都保持最优。

论文正是从这一被忽视的内部动力学出发,分析不同 timestep 下 conditional score 与 unconditional score 的 discrepancy 变化规律,指出 guidance scale 本质上不应是一个静态超参数。

基于这种理论观察,作者提出 C²FG(Control Classifier-Free Guidance),利用指数衰减控制函数让 guidance strength 在采样前期和后期自动完成动态分配:前期更强地利用条件约束保证语义对齐,后期则逐步减弱引导以避免过强 guidance 带来的分布偏移和细节失真。

它真正打破的是 CFG 长期依赖经验调参的惯性,把一个原本“手工设定的 scale”重新建立成一个与扩散动力学同步变化的控制变量,而且由于整个方法 training-free、plug-in,无需重新训练模型即可直接嵌入现有采样流程,这也使它具备了非常强的工程可迁移性。

CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定

而当扩散模型内部的引导控制开始被重新理论化时,苹果团队提出的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》则进一步把问题推向了更底层的生成架构本身。

当前高质量视频生成几乎清一色建立在 diffusion 框架之上,反复去噪似乎已经成为视频 world model 的默认实现方式,normalizing flow 虽然在图像生成中重新受到关注,却始终没有真正进入视频生成主流。

STARFlow-V 试图回答的是:高质量视频生成是否真的只有 diffusion 这一条路。为此,论文并没有简单把图像 flow 结构迁移到视频,而是针对视频生成的长时序依赖和跨帧一致性,在时空 latent 空间中重新构建了一套 global-local 的 autoregressive normalizing flow 架构:

全局 latent 用于控制跨帧因果依赖,减少长视频中误差逐帧累积的问题,局部 latent 则保留帧内细节交互,保证空间纹理质量。

同时,作者进一步引入 flow-score matching,通过轻量级 causal denoiser 提升自回归生成过程中的时间一致性,并利用 video-aware Jacobi iteration 提高内部更新的并行效率。

也就是说,它并不是在 diffusion 框架内继续做采样优化,而是直接打破“高质量视频生成必须依赖 diffusion 反复去噪”的默认前提,建立起一种基于 normalizing flow 的端到端视频生成范式。

更重要的是,由于 flow 天然具备可逆结构和显式 likelihood 估计能力,同一个 STARFlow-V 模型就能够原生支持 text-to-video、image-to-video 以及 video-to-video 多种任务,不需要为不同任务额外堆叠复杂分支,这使它不仅是一个替代架构,更像是在重新打开视频生成的技术路线图。

CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定

如果说前两篇工作还主要集中在“生成过程如何被重新控制与重新实现”,那么由 MIT 团队提出的《Back to Basics: Let Denoising Generative Models Denoise》则把审视进一步推回到扩散模型最核心的预测对象上。雷峰网(公众号:雷峰网)

当前主流 denoising diffusion model 虽然名义上是“去噪生成模型”,但大多数做法实际上并不直接预测干净图像,而是让模型去拟合噪声残差或带噪中间量,这一设定在工程上已经沿用多年,却很少有人重新追问它是否真的是最合理的生成目标。

他们的研究指出,按照流形假设,自然图像分布位于相对低维且连续的数据流形,而噪声空间则高维、分散且更难拟合;从这个角度看,让模型直接学习回到 clean data,本身可能比在高维噪声空间中预测 noised quantity 更自然、更稳定。

基于这一认识,作者提出 JiT(Just image Transformers),不再依赖额外 tokenizer、复杂预训练模块或辅助损失,而是直接使用大 patch Transformer 在原始像素空间完成 clean image 预测。

这个设计表面上看是“回归朴素”,但它真正打破的是“扩散模型默认预测噪声”的路径依赖,重新建立起一种以直接回归数据流形为核心的生成思路,也让 Transformer-based diffusion 在高分辨率自然图像上的建模逻辑变得更加自洽。

CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定

生成模型开始从「会生成」走向「会精确编排」

当视觉生成模型不断回到底层机制做重构时,另一部分工作则开始把注意力转向“模型生成结果到底能被控制到什么程度”。由德国图宾根大学、Tübingen AI Center 以及马克斯·普朗克信息学研究所共同提出的《FrankenMotion: Part-level Human Motion Generation and Composition》就是其中非常典型的一例。

当前文本驱动人体动作生成虽然已经能够根据整体动作描述生成相对自然的人体运动,但模型控制依然停留在粗粒度层面:它能理解“一个人在走路”“一个人在挥手”,却很难精确回答“左手什么时候抬起”“下半身何时转向”“动作切换发生在哪一帧”。

造成这一问题的核心原因,一方面在于现有 mocap 数据大多只有序列级动作标签,缺少按时间对齐、按身体部位拆分的细粒度标注;另一方面,模型即使理解整体语义,也很难同时兼顾局部肢体动作与全局时序一致性。

FrankenMotion 正是重新把复杂人体运动视为由多个“原子动作单元”组成,并尝试让模型学习这些身体部位级动作之间的组合关系。

论文首先借助 FrankenAgent 自动为已有动作序列生成逐帧、逐身体部位且时间对齐的层级文本标注,构建新的 FrankenStein 数据集;随后训练 FrankenMotion 同时接收序列级、动作级和身体部位级条件,使模型不仅知道“做什么动作”,还知道“哪部分身体在什么时候做”。

这意味着人体动作生成开始从“生成一个合理动作片段”转向“按指令精确编排复杂动作组合”,模型能够组合出训练集中并未直接出现过的细粒度复合动作。

与这种细粒度控制需求相对应,视觉理解中的匹配任务也在经历类似的范式转向。由意大利都灵理工大学、TU Darmstadt、hessian.AI 以及 ELIZA 共同提出的

CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定

由而意大利都灵理工大学(Politecnico di Torino)、德国达姆施塔特工业大学(TU Darmstadt)、德国黑森州人工智能研究院(hessian.AI)以及 ELIZA 共同提出的《MARCO: Navigating the Unseen Space of Semantic Correspondence》。

关注的则是语义对应(semantic correspondence)里一个很现实却常被 benchmark 掩盖的问题:现有方法虽然在已标注关键点上精度很高,但一旦查询点超出训练时见过的关键点位置,或者遇到未见类别,泛化能力就会迅速下降,导致 benchmark 成绩与真实可用性之间存在明显落差。

当前主流语义对应模型通常采用 DINOv2 加 diffusion backbone 的双编码器架构,虽然效果强,但模型规模接近十亿参数,计算开销大,而且依赖稀疏关键点监督时很难学到真正连续、致密的语义匹配关系。

MARCO 的核心切入点,就是不再满足于“在标注点上对得准”,而是尝试让模型学会在未被标注的空间中也能推断合理的对应关系。

为此,论文在 DINOv2 基础上构建了一个更统一、更轻量的对应框架,并结合 coarse-to-fine 的定位目标提升细粒度空间精度,同时引入一种 dense self-distillation 机制,把原本稀疏的关键点监督逐步扩展成更致密的语义对齐信号。

这种设计带来的变化在于,模型不只是记住训练时出现过的对应点,而是开始学习物体表面更连续的结构关联,因此在 unseen keypoints 和 unseen categories 上都表现出更强泛化能力。

实验结果显示,MARCO 不仅在 SPair-71k、AP-10K、PF-PASCAL 等标准基准上刷新了性能,在更严格的细粒度定位阈值和未见关键点测试中提升尤其明显;与此同时,它相比 diffusion-based 方法还实现了约 3 倍更小、10 倍更快 的效率优势。

这篇工作的价值在于,它打破了语义对应领域长期“高 benchmark 分数 ≠ 强真实泛化”的隐性瓶颈,建立起一种更强调致密推断和未见空间泛化的建模思路,使 semantic correspondence 从“在标注点上匹配”,进一步走向“在整片语义空间中寻找对应”。

CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定

把这几项工作放在一起看,会发现它们虽然分别来自扩散控制、视频生成、人体动作生成和语义对应等不同方向,但背后其实共享着同一条更深层的研究脉络:视觉 AI 正在从“沿着既定范式堆模型、调参数、刷 benchmark”,转向“重新拆掉那些被默认正确的底层设定,再建立新的生成目标、控制机制和表示方式”。雷峰网

有的工作在重新定义扩散模型应该如何引导,有的在重新打开视频生成不止 diffusion 一条路的可能性,有的在追问生成模型到底该预测噪声还是直接预测数据流形,也有的在把模型控制粒度和泛化空间从粗粒度推进到更连续、更真实的层面。

换句话说,真正值得注意的已经不只是某一个模型分数提升了多少,而是这一批工作共同释放出的信号:视觉模型的下一轮竞争,正在从性能增量竞争,转向底层建模范式的重构竞争。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定