惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

月光博客
月光博客
T
Tor Project blog
美团技术团队
WordPress大学
WordPress大学
V
Visual Studio Blog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
O
OpenAI News
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
W
WeLiveSecurity
酷 壳 – CoolShell
酷 壳 – CoolShell
Simon Willison's Weblog
Simon Willison's Weblog
S
Securelist
S
SegmentFault 最新的问题
博客园 - 聂微东
宝玉的分享
宝玉的分享
E
Exploit-DB.com RSS Feed
博客园 - 叶小钗
N
News and Events Feed by Topic
博客园 - 司徒正美
S
Security Archives - TechRepublic
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Last Week in AI
Last Week in AI
小众软件
小众软件
K
Kaspersky official blog
T
Tailwind CSS Blog
Hugging Face - Blog
Hugging Face - Blog
Google DeepMind News
Google DeepMind News
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园 - 三生石上(FineUI控件)
腾讯CDC
V
V2EX
Know Your Adversary
Know Your Adversary
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
博客园 - 【当耐特】
博客园 - Franky
Spread Privacy
Spread Privacy
T
Troy Hunt's Blog
量子位
Apple Machine Learning Research
Apple Machine Learning Research
阮一峰的网络日志
阮一峰的网络日志
大猫的无限游戏
大猫的无限游戏
T
Threat Research - Cisco Blogs
博客园_首页
J
Java Code Geeks
有赞技术团队
有赞技术团队
Help Net Security
Help Net Security
IT之家
IT之家
T
Threatpost

雷峰网

1.8亿人在小红书读书:图书业在小红书电商营收规模年增超30% | 雷峰网 减重300kg,首搭5nm智驾芯片:2026款乐道L90正式亮相 | 雷峰网 阶跃和千⾥科技官宣战略合作:打造原⽣智驾基座模型,提升物理AI能⼒上限 | 雷峰网 “还债骑手”被强制下线240次:“开始我很反感过劳提醒,影响赚钱” | 雷峰网 石头科技:2025年营收高增56.51%,2026Q1营收增23.31% | 雷峰网 Mythos引爆攻击工业化时代,奇安信:构建三位一体内生安全体系是破解之道 | 雷峰网 曝两家科技大厂争投DeepSeek,估值飙至200亿美元;小米深夜放大招!最强大模型MiMo-V2.5系列发布;微软 Xbox 部门将裁员15% | 雷峰网 RGB-Mini LED电视普及风暴,海信正式发布小墨E5S Pro | 雷峰网 标配8255芯片与CDC,奇瑞试图终结“燃油车无智驾”时代 | 雷峰网 德赛西威也不相信,智驾能让Tier1躺着赚钱 | 雷峰网 找来刘翔做代言人,可能是智己LS8最好的一步棋 | 雷峰网 「中国版Grok上车」分水岭:阶跃交出首份量产答卷 | 雷峰网 百度Create大会双主论坛议程揭晓,多项重磅升级发布将集中亮相 | 雷峰网 泄露用户隐私!曝某AI助手将B用户简历发给A用户;苹果更换CEO原因曝光;微信宣布5国可用微信支付;航旅纵横「崩」了一天,借钱功能却正常 | 雷峰网 一季度交付1200件精益工具,希音深入技术创新提升按需时尚竞争力 | 雷峰网 从“替代”到“重构”:联想开天“1+2+N”如何重写信创AI PC逻辑? | 雷峰网 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 | 雷峰网 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 死亡率「99%」的芯片创业淘汰赛,为旌科技为何能活下来? | 雷峰网 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 | 雷峰网 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 | 雷峰网 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 | 雷峰网 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 | 雷峰网 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 | 雷峰网 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 | 雷峰网 Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比 | 雷峰网 阿里发布Qwen3.6-Max预览版,登顶最佳国产模型 | 雷峰网 郭达雅加入巨头背后:顶尖AI人才为何向大厂「回流」? | 雷峰网 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 | 雷峰网 智元邓泰华宣布:具身智能行业进入「部署态」 | 雷峰网 独家丨前安克研发总监丁准离职创业,获头部美元基金押注 | 雷峰网 曝DeepSeek V4将于本周发布,梁文锋对外融资20亿;雷军在服务区被堵车里维权?小米徐洁云回应;宇树H1半马被担架抬离赛道丨雷峰早报 | 雷峰网 广州一斗虾赛现场各路选手比拼蒸馏,现场诞生近50个“技能包” | 雷峰网 智元 ×Hitch Open|深耕具身智能,共建全球物理智能学术生态 | 雷峰网 2026广汽科技日重磅发布五大核心技术,以“科技向心”引领智能出行时代 | 雷峰网 一汽大众与卓驭科技的七年协同,交出一份燃油车智能化的成绩单 | 雷峰网 腾讯的长青游戏,今天又进化了一次 | 雷峰网 智己LS8上市:24.98万起售,刘翔站台的这台「最强8系」能打吗? | 雷峰网 全球1100万台出货,追觅打造最聪明的扫地机 | 雷峰网 阶跃率先跑通“中国版 Grok 上车”量产交付!超级 Eva 搭载极氪8X 今起上市 物理AI时代,为什么需要一颗“舱驾融合”芯片? | 雷峰网 逸安启欢迎问界加入,与宝马、梅赛德斯-奔驰携手, 共同推进中国豪华超充网络的发展 | 雷峰网 逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座 | 雷峰网 独家丨AWS大中华区多位L8高管迎来变动,SA部门负责人代闻离职 头部品牌 “加码”东南亚 泡泡玛特新品在Lazada发售 | 雷峰网 D19起售价21.98万元,零跑能成为9系SUV的“破局者”吗? | 雷峰网 全球首款!进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1 4小时闭门会,15位运动科技创业者聊透了哪些「不能公开说」的真相 | 雷峰网 在女性黑客松上,看见AI硬件的另一种可能 | 雷峰网 Plaud 爆火后,YoooClaw 要改写 AI 硬件的剧本 黄仁勋:DeepSeek在华为芯片上发布「很可怕」;抖音集团副总裁辟谣郭达雅亿元年薪入职字节;五角大楼与通用、福特等汽车制造商讨论造军火 | 雷峰网 正式官宣!佑驾创新与荣耀(HONOR)达成合作,以“无人车+机器人”打通全链路无人化闭环 | 雷峰网 解耦性能与厚重,英特尔AI高静Plus正在重写游戏本定义 | 雷峰网 独家丨Somnia Lab 完成千万美元天使轮融资,瞄准人机关系入口与万亿级具身情感生态 | 雷峰网 腾讯发布并开源混元世界模型 2.0,一句话造出3D世界,兼容游戏引擎! 阿里发布世界模型HappyOyster,与谷歌Genie3竞争 从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情? | 雷峰网 格力高管炮轰友商被狂怼:又当又立!「真铜实料」这四字不姓格;美国将退还超1万亿元关税;品牌GMV高速增长,速卖通将成品牌出海全新主场 全球线上首发!辉瑞新一代减重药先维盈®开启预售服务,美团买药又下一城 傲基「生死局」:绝地反杀与盈利迷途 | 雷峰网 阿里ATH发布AI开发工具Meoo,已打通阿里云核心产品 | 雷峰网 美团闪购升级闪电仓供应链服务平台:向全行业商家开放即时零售供应链基建 | 雷峰网 阿里云连续5年稳居游戏云市场份额第一! | 雷峰网 与阿里成立合资公司后,新世界旗下Gmarket商品交易额(GMV)实现双位数增长 | 雷峰网 度小满发布DXMClawPay 面向Skill开发者提供一站式支付接入方案 | 雷峰网 滴滴自动驾驶全球化布局加快,年内在阿联酋开展试点 | 雷峰网 金立创始人刘立荣消失8年后最新动向:疑在印尼卖家具;月薪3万,DeepSeek聘人去内蒙草原守机房;比亚迪坪山园区大火,公司回应火势已扑灭 | 雷峰网 水下绞杀:清洁机器人渠道里的生意与生死 | 雷峰网 墨腾报告:东南亚电商平台成交额五年翻三倍 三大平台瓜分万亿市场 | 雷峰网 火山引擎:Seedance 2.0 API 服务全面开放 | 雷峰网 中远海运特运X火山引擎:“数字员工”驶向智慧航运新蓝海 | 雷峰网 重新认识具身行业,从自变量的这封邀请函开始 | 雷峰网 做了5年3D打印机,我发现了世界模型的Scaling Law | 雷峰网 别克×火山引擎:至境E7行业首发搭载豆包大模型最新版 | 雷峰网 强强联手,追觅牵手阿里速卖通,将在海外加大投入 | 雷峰网 推理卡毛利率下滑超7%,天数智芯「降价换量」的买卖值不值? | 雷峰网 明日新程完成连续两轮融资,领跑Harness群体多智能体赛道 | 雷峰网 「作弊」内幕曝光!3DMark回应将某知名国产手机除名;李想朋友圈炮轰东风日产恶意拉踩,后者高管回应;美的空调又发行业首创产品 | 雷峰网 50万起步的蔚来ES9,能否站稳高端? | 雷峰网 汽车行业已在阿里云上使用超10万卡“真武”PPU研发智驾 | 雷峰网 百度智能云联合多家头部具身智能企业,打造具身智能数据超市 | 雷峰网 从汽车到物理 AI:何小鹏眼中的智能汽车下半场 | 雷峰网 首个跑通端到端闭环的全模态安全脱敏的龙虾盒子,无问芯穹InfiniClaw Box让本地龙虾也能放心用! | 雷峰网 当参数不再决定胜负,AI时代的企业级SSD靠什么「赢」?|MemoryS 2026 | 雷峰网 独家丨继大疆押注后,智能派再获数亿元融资,或与拓竹正面硬刚 | 雷峰网 阿里视频生成大模型Wan2.7登顶DesignArena榜单 | 雷峰网 KV Cache需求暴涨32倍,AI如何重写存储产业链的「旧分工」?| MemoryS 2026观察 | 雷峰网 微软小冰,生不逢时 | 雷峰网 豆包APP实时语音通话升级全双工模型 抗干扰与低时延能力提升 | 雷峰网 中国充电联盟与万勋科技联合发布《中国新能源汽车自动充电用户行为洞察报告》加速自动充电规模商用 | 雷峰网 继“同事.skill”走红,周鸿祎回应“把自己炼成AI分身”:这才是数字分身的正确未来 | 雷峰网 章鱼动力获得新加坡顶级风投 K3领投的数亿元投资 | 雷峰网 港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026 | 雷峰网 独家丨前大疆T4悍将谢博文:从具身机器人转战桌面CNC,深圳再启「无限工坊」 | 雷峰网 2026淘宝直播三大主线:提效新品,造优质主播差异化,增优质内容曝光 | 雷峰网 阿里云百炼上线Agent记忆库,让「龙虾」应用更懂用户 | 雷峰网 百度官宣!Create2026百度AI开发者大会定档5月13至14日 | 雷峰网 印度禁止中国大陆产摄像头监控:花高价大批替换,国产厂商回应;传宇树科技与阿里达成出海战略合作;DeepSeek上线专家模式 | 雷峰网 20分钟破1000万!首日破3000万!创想三维2026全球3D打印类目众筹王者!AI+生态双向助推,3D打印布道者重新定义3D打印生态! | 雷峰网
何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026 | 雷峰网
2026-05-12 · via 雷峰网
何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

2025 年到 2026 年,如果要问生成式 AI 领域最值得关注的研究方向,流匹配(Flow Matching) 是一个无法绕开的答案。

从去年起,这个名字开始频繁出现在顶会论文里、被工业界反复讨论、被拿来和统治了图像生成领域长达五年的扩散模型正面比较。

所谓流匹配,本质上是用常微分方程路径(ODE path)替代扩散模型的随机微分方程路径,让数据从噪声到图像的转变不再依赖数百步迭代,从而在理论上实现更高效的生成。但从理论可行到工程落地,中间隔着无数技术细节——训练目标怎么设计、架构怎么选、速度和质量如何兼顾,每一步都是坑。

何恺明团队正是在这个节点上,密集地交出了一份多角度的答卷。

AI科技评论总结了何恺明团队近期在CVPR大会上发表上的论文: 2025 年 5 月,他们提出了均值流(MeanFlow),首次将"均值速度场"引入生成建模;同年年底,BiFlow 在归一化流框架上实现了 700 倍加速,将 FID 推到 2.39;几乎同一时间,Improved MeanFlow(iMF)则以三个系统性修复将单步 FID 降至 1.72,首次在无蒸馏条件下超越所有蒸馏方法。

生成模型之外,团队在视觉推理(VARC,CVPR 2026)和自监督学习(Pixo,CVPR 2026)上也同时出击,共同勾勒出一个清晰的战略意图:扩散模型并不是图像生成的终点,流匹配这条路,值得全力押注。

这五篇论文之间没有直接的方法传承,方向各有侧重,但贯穿其中的核心问题始终如一:在每一个被默认的技术选择背后,到底藏着多少被低估的优化空间?

让"去噪"模型真正做一次去噪

理解 JiT 的工作,需要从扩散模型一个被忽视已久的痛点说起。

当前的扩散模型在训练时,网络学习预测的目标是噪声 ε 或速度 v,而非干净图像 x。

这个细节在大多数论文里被一笔带过,但它有一个容易被忽视的含义:噪声和速度并不在自然图像的流形上。用大白话说,网络在试图预测一个"不属于这个世界"的东西——它不在图像分布内,是离群的量。这种预测天然地不稳定,网络需要额外的表达能力来处理那些本不应该出现在预测目标里的高维噪声。

也就是说,预测噪声和预测干净图区别很大。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

流形示意图

JiT 的核心洞察正是从这里切入的。既然 x(干净图像)在图像流形上,那就让网络直接预测 x。直觉上这是一个退步——流形外的东西更难预测,流形内的东西反而应该更容易。但团队指出,这个逻辑在扩散模型里是反的:噪声 ε 分布在高维空间,目标分布极广,网络需要一个很强的先验来"猜测"噪声的真实值;而 x 就在流形上,是网络见过的、理解的、可以自然逼近的东西。

为了让这个朴素的想法在工程上成立,JiT 采用了标准 Vision Transformer,但做了一个看似大胆的调整:patch 尺寸可以非常大——16×16、32×32 甚至 64×64,而不像标准扩散模型那样在高分辨率下被迫使用极小的 patch。

原因在于:x 在流形上,网络不需要处理流形外的高维噪声干扰,因此 patch 大小的增加不会导致信息缺失,也没有带来灾难性的效果退化。

这是一种返璞归真,直接预测目标图像,对传统认知发起了一次直接挑战.

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

JiT模型生成的图像样本

JiT 还完全去掉了 VAE Tokenizer,不需要预训练的潜空间,不需要 GAN 损失或感知损失,就是最朴素的 Transformer 在像素上做去噪。模型规模 86M 参数,从 256 到 1024 分辨率,计算量几乎不变——只需要调整 patch 大小。这意味着一个原生模型可以在任意分辨率上生成,而不需要借助潜空间的压缩-解压机制。

最终结果在 ImageNet 512×512 上实现了 FID 1.78,且 JiT-G 版本在更高分辨率下依然保持了竞争力的 FID。更值得关注的是,这个性能是在没有任何蒸馏、没有任何外部模型辅助的前提下从零训练得到的。

JiT 证明了"让扩散模型真正做去噪"这件事本身,就足以带来显著的质量提升——不需要更多的工程技巧,只需要把预测目标换回那个理所当然却被忽视了五年的选项。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

论文链接:https://arxiv.org/abs/2511.13720

ARC:跳出语言模型的舒适圈

ARC是 AI 领域历史最久的推理能力测试之一,包含数百个"视觉谜题",要求模型从少数示例中推断规则并泛化到新样本。物体对称、重力方向、颜色连续性、反射变换——这些概念本质上是对物理世界的抽象,本不应该和语言有任何关系。

然而长期以来,整个社区把 ARC 当成了一个语言问题。GPT-4、Claude、Deepseek 几乎都在 ARC 上刷过榜,原因是 ARC 的任务描述可以自然地翻译成文字,语言模型恰好擅长这类文字推理。这在工程上无可厚非,但它制造了一个隐性的假设:视觉抽象推理,必须借助语言才能完成。

VARC 要挑战的正是这个假设。

把 ARC 任务重新建模为图像到图像的翻译问题,用一个只有 18M 参数的 ViT 从头训练,不依赖任何语言能力,在 ARC-1 上达到了单模型 54.5%、集成 60.4% 的准确率。60.4% 是什么水平?人类平均水平是 60.2%,顶级大语言模型也在这个区间。

这意味着,一个参数量只有顶级 LLM 几千分之一的纯视觉模型,在视觉推理任务上达到了与人类相当的水平。

VARC框架的实现路径也非常直接,没有把输入网格直接 token 化,而是使用了“画布”,将网格嵌入到一个足够大的预定义画布(32×32)上,背景用第 11 种颜色填充。然后像处理一张普通图片一样,被ViT模型进行端到端的处理。

这带来一个关键效果:token 数量从有限的网格大小扩展到了更大的空间,让 ViT 的注意力机制有了充足的施展余地,能够捕捉远程的视觉关系。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

WARC的画布

另外,测试时训练(TTT)在推理阶段利用测试任务的少量示例做快速微调,是性能逼近人类水平的关键——模型不是"记住"了 ARC 的规则,而是在看到新任务时快速学习规则本身。

VARC 的出现给整个 ARC 社区泼了一盆冷水:大家花了大量工程资源在语言模型上刷榜,却忽视了纯视觉方法在这个任务上的潜力。

这个潜力的释放需要两个条件:一个足够大的视觉画布,以及一个让模型在推理时继续学习的机制。一旦这两个条件被满足,视觉推理不需要语言模型这件事,变得异常清晰。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

论文链接: https://arxiv.org/abs/2511.14761

突破归一化流限制,图像单步生成加速

归一化流是生成式建模中历史最悠久的框架之一。它最大的理论优势是可以用精确的数学形式同时完成生成和似然估计,训练过程透明、可解释,不像扩散模型那样依赖多次采样来近似对数似然。但长期以来,它在性能上被扩散模型压得喘不过气来。

原因出在两个结构性约束上。

第一,传统归一化流为了保证前向变换的精确可逆性,必须采用受限的网络架构,无法使用 Transformer 等更强大的序列模型。

第二,逆向过程依赖自回归因果解码,每一步必须顺序计算,无法并行,生成一张图的时间成本极高。这两个约束几乎从根子上限制了归一化流在大规模图像生成上的竞争力。

BiFlow 的解题思路初看有些反直觉:逆向过程不需要是前向过程的精确逆

前向过程保持可逆,这是数学上的保证,确保分布映射的准确性不受损害;但逆向过程单独训练一个独立的模型来近似逆映射,不要求它在数学上等于前向的解析逆。这个"放弃精确逆"带来了一个巨大的解放:逆向过程可以使用完全并行的 Transformer 架构,实现真正的单步生成,不再受自回归解码的顺序瓶颈约束。

但这还不够。逆向模型单独训练,意味着它学到的表示空间可能与前向过程完全不同——两者可能在不同的隐空间里各说各话。

BiFlow 引入了隐藏层对齐机制,利用前向过程的中间状态轨迹监督逆向模型,确保两者在表示空间中对齐,防止逆向模型"跑偏"。对齐之后,逆向模型既能受益于 Transformer 的强大表达能力,又能保持前向过程的分布结构完整。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

标准化流与BiFlow的概念对比

最终结果在 ImageNet 256×256 上实现了 FID 2.39,这是归一化流方法的历史新纪录。但更有冲击力的是速度数据:单张图像生成时间从 TARFlow 的 0.7 秒缩短到 0.001 秒,加速约 700 倍。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

BiFlow与SOTA流模型的效率对比

这不再是理论推演,而是一个可以直接在工程中落地的效率跃迁。归一化流长期被视为"理论上优美、工程上鸡肋"的框架,BiFlow 至少把后半句的错误认知打破了。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

论文地址:https://arxiv.org/abs/2512.10953

快进生成,无需蒸馏

如果说 BiFlow 是把归一化流从困境中拉了出来,那么 iMF(Improved Mean Flows)的目标更彻底:把"快进生成"这条路的瓶颈彻底打通。

"快进生成"的核心目标是让扩散模型用 1 步而不是 250 步完成图像生成。此前的工业界解法几乎都依赖蒸馏——用一个大而慢的扩散模型作为"教师",训练一个小的"学生"在 1-2 步内近似教师的输出。蒸馏效果不错,但代价也明显:训练流程极其复杂,学生的性能上限被教师锁死,一旦教师本身有缺陷,学生无论如何都超不过去。

何恺明团队在 2025 年 5 月提出了均值流(MeanFlow),首次将"均值速度场"引入生成建模,目标是实现真正的单步高质量生成。方向正确,但初代 MF 有三个系统性的训练缺陷,导致最终性能距离当时的 SOTA 有明显差距。ImageNet 256×256 的 FID 停留在 3.43,而最好的扩散模型已经在 1.x 徘徊了。

第一个缺陷是训练目标的"自依赖"。MF 的训练目标是"平均速度损失"(u-loss),目标函数里包含了一个由网络自身输出推导出的项——这就好比让一个人预测"自己说的话会造成什么后果",优化器在闭环里反复震荡,训练方差极大,收敛不彻底。

第二个缺陷是引导机制的"死板"。无分类器引导(CFG)是提升生成质量的关键技术,但 MF 训练时把 CFG 强度固定了,推理时用户无法调节质量-多样性的权衡——这等于剥夺了生成器最重要的一个调参手段。

第三个缺陷是架构效率的"肥胖"。MF 依赖的 adaLN-zero 机制在处理多条件(时间步 t、类别标签 c、CFG 强度 ω)时把所有条件向量简单求和,条件多了之后互相干扰,参数利用率极低。

iMF 成功解决了这三个缺陷目标,通过将训练目标重新表述为更稳定的瞬时速度损失,同时引入灵活的无分类器指导(CFG)和高效的上下文内条件作用,大幅提升了模型性能。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

论文链接: https://arxiv.org/abs/2512.02012

针对训练目标,iMF 利用 MeanFlow 的数学恒等式,将平均速度损失(u-loss)等价转换为瞬时速度损失(v-loss)。瞬时速度 v 等于网络在 t 时刻的瞬时导数,它的特点是:目标 v 与网络自身的输出完全无关,是一个纯粹的标准回归问题。这个看似简单的数学变换,把 MF 训练不稳定的根因直接消除了。

针对 CFG 灵活性,iMF 把 CFG 强度 ω、引导区间 t_min 和 t_max 一起编码为显式的条件变量作为额外输入传入网络。训练时从幂分布中随机采样不同引导强度,让网络学习不同 CFG 强度下的速度场分布;推理时,用户可以自由调节 CFG 强度,就像使用普通扩散模型一样自然。这个设计让 iMF 支持了 CFG 区间控制——只有当 t 落在某个区间内时才启用引导,超出区间自动关闭,给了研究者更多调控手段。

针对架构效率,iMF 摒弃了把条件向量求和的粗暴做法,转而将每类条件转化为多个可学习的 token,类别 8 个、时间步 4 个、CFG 强度 4 个、引导区间 4 个,与图像 latent token 沿序列维度拼接后联合处理。Base 模型参数从 133M 降至 89M,减少了三分之一,同时 FID 反而改善。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

iMF 和MF对比图

三条改进的效果是叠加的。iMF 的消融链路清晰地记录了每一步的贡献:原 MF 基线 6.17 FID → v-loss 替换 5.68 → 灵活 CFG 4.57 → 多 token 条件 4.09 → Transformer 架构改进 3.39 → 640 epoch 长训练 1.72。每一步都有据可查,每一步的改善都可以归因到具体的修改点。

最终 iMF-XL/2 实现了 1-NFE FID 1.72,且这是从零训练、不依赖任何蒸馏取得的成绩。iMF 的 FID 优于所有依赖蒸馏的单步生成方法,包括 FACM-XL/2(蒸馏,FID 1.76)和 DMF-XL/2+(蒸馏,FID 2.16)。扩散模型领域的一个默认假设被打破了:高质量单步生成,不需要蒸馏。

更值得关注的是 2-NFE 时 iMF 的 FID 降至 1.54,已经非常接近主流多步扩散的水平(SiT-XL/2+REPA 为 1.42 @ 数百步)。单步模型与多步模型的性能差距,第一次缩小到了这个量级。

像素监督:从边缘到正面竞争

自监督视觉预训练领域近年来有一个明显的主流叙事:像素空间已经过时,潜空间才是未来。

DINOv3 是这个方向的代表——将图像通过 VAE Tokenizer 压缩到低维潜空间,再进行对比学习,在多项视觉任务上达到了 SOTA,逐渐被视为"正确答案"。

这个叙事的隐含前提是:在大规模训练场景下,像素级自监督天然不如潜空间方法,因为像素空间的高维、冗余、多噪声特性让学习效率更低。

Pixo(pixel supervision) 要检验的正是这个前提。

MAE 已经证明,像素空间的掩码自编码器在大规模训练下是一个简单而高效的选择。Pixo 则把这个思路推向极致:在 20 亿张网络爬取图像上,系统性地探索像素监督的上限,并在预训练任务、模型架构和训练策略三个层面对 MAE 做了全面增强。预训练任务设计得更具挑战性,架构针对大规模高效训练做了优化,训练策略引入了自筛选机制自动过滤低质量数据,最小化人工干预。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

Pixio 对 MAE 进行的关键更新

结果没有出现预期的"像素完败"局面。在深度估计、前馈 3D 重建、语义分割、机器人操控等多个下游任务上,Pixo 与 DINOv3 正面竞争,各有胜负。

这意味着像素监督在大规模场景下并非不如潜空间方法,只是需要更强的任务设计、更大规模的优质数据和更精细的训练策略。

两种范式各有其适合的场景:像素监督在需要保留完整视觉细节的任务上可能更有优势,而潜空间方法在语义理解类任务上更占优。

两种范式的竞争才刚刚开始,Pixo 的价值在于证明了像素监督的边界还远未到达——在 20 亿规模的数据上,它依然是一个有力的竞争者,而非被淘汰的遗产。

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

论文链接: https://arxiv.org/abs/2512.15715

结语

盘点完何恺明近期的五篇论文,一个值得深思的问题浮现出来:扩散模型统治图像生成五年,这个"统治"到底有多扎实?

归一化流在效率上的结构性缺陷,是可以通过放弃"精确逆"来修复的;

扩散模型的训练目标不稳定,是可以通过换掉噪声预测目标来改善的;

单步生成必须依赖蒸馏的假设,是被 iMF 用从零训练的 FID 1.72 直接打破的。

甚至在视觉推理和自监督学习领域,何恺明团队也在用最小化的视觉架构挑战语言模型的传统领地,而且赢了。他们不是在已有的游戏规则里优化指标,而是在重新定义问题本身的前提。他们用返璞归真的方式、"大道至简"的风格提出新的思路,这些思路对于传统方案来说,是颠覆性的改变。

同时,这五篇论文也反映了他们一个连贯的战略判断。扩散模型不是终点,而是某个更高效范式出现之前的过渡阶段。流匹配是他们的答案,iMF 和 BiFlow 是这个答案最有力的支撑。他们从底层基础(归一化、去噪目标函数、流模型设计)出发,重构视觉生成与理解的理论框架。

接下来的问题是,这个判断会不会在 2026 年成为整个生成式 AI 领域的共识——而这一次,何恺明的团队已经把路标立好了。

雷峰网(公众号:雷峰网)何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

雷峰网原创文章,未经授权禁止转载。详情见转载须知

何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026