惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
P
Proofpoint News Feed
Spread Privacy
Spread Privacy
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Security Latest
Security Latest
P
Privacy & Cybersecurity Law Blog
AWS News Blog
AWS News Blog
W
WeLiveSecurity
I
Intezer
Attack and Defense Labs
Attack and Defense Labs
Google Online Security Blog
Google Online Security Blog
S
Schneier on Security
N
News and Events Feed by Topic
T
Threat Research - Cisco Blogs
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Hacker News: Ask HN
Hacker News: Ask HN
Know Your Adversary
Know Your Adversary
N
News and Events Feed by Topic
K
Kaspersky official blog
NISL@THU
NISL@THU
Recent Commits to openclaw:main
Recent Commits to openclaw:main
M
Microsoft Research Blog - Microsoft Research
S
Secure Thoughts
罗磊的独立博客
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Project Zero
Project Zero
Latest news
Latest news
Vercel News
Vercel News
阮一峰的网络日志
阮一峰的网络日志
The Hacker News
The Hacker News
L
LangChain Blog
PCI Perspectives
PCI Perspectives
博客园 - Franky
P
Palo Alto Networks Blog
A
Arctic Wolf
Hugging Face - Blog
Hugging Face - Blog
量子位
L
LINUX DO - 热门话题
人人都是产品经理
人人都是产品经理
T
Tor Project blog
博客园 - 叶小钗
C
CERT Recently Published Vulnerability Notes
李成银的技术随笔
美团技术团队
Apple Machine Learning Research
Apple Machine Learning Research
Application and Cybersecurity Blog
Application and Cybersecurity Blog
博客园 - 三生石上(FineUI控件)
Scott Helme
Scott Helme
雷峰网
雷峰网

雷峰网

把18A塞进主流轻薄本,英特尔「WildCat Lake」想让人人用上AI PC | 雷峰网 速卖通Brand+开放韩国站:2026市场投入激增至3倍 | 雷峰网 华为发布AIDC数据基础设施全栈方案,覆盖数据湖至智能体框架五大层级 | 雷峰网 独家丨AWS大中华区战略客户团队负责人、L8高管顾凡将加入支付巨头Visa | 雷峰网 独家解读丨Anthropic每赚100块,为何会被马斯克顺走50? | 雷峰网 小鹏副总裁:小鹏可能是唯一欢迎特斯拉FSD入华的车企;有员工喊出「学三星罢工」!曝台积电Q1净利大增58%反降薪;DeepSeek一月内宕机三次 | 雷峰网 数字华夏发布新一代人形机器人“星行侠P2”,加速机器人场景落地 | 雷峰网 何小鹏的赌局:GX狂降12万,换一场不能输的冲高 | 雷峰网 十年出货超10万台,越疆以全栈自研与数据闭环布局具身智能 | 雷峰网 独家丨前美团外卖技术负责人入局餐饮具身模型,「元节智能」获千万级种子轮融资 | 雷峰网 安克消噪耳机搭载AI音频芯片Thus™ A1,获吉尼斯“最清晰通话”认证 | 雷峰网 联想中国基础设施业务上财年实现两位数增长 刘军解读背后四大驱动力 | 雷峰网 Manus创始人计划融资10亿美元回购公司;曝知名招聘平台主动申请破产;特斯拉官宣:监督版FSD登陆中国! | 雷峰网 寻找 AI 的「第三语言」:中间表示如何打通多模态鸿沟 | CVPR 2026 谷歌掀桌,一口气甩出16个AI王炸 | 雷峰网 Anthropic 花 3 亿美金买下 API「修路工」,打响连接层暗战 我们不看阿里财报 | 雷峰网 FSD入华前奏?曝特斯拉国内9城急招智驾测试员;曾对标乔布斯!大疆的对手GoPro要被卖了:3年亏损近40亿;字节Seedance 2.1即将发布 | 雷峰网 对标特斯拉FSD,Momenta借势出海 | 雷峰网 DeepSeek组建Harness团队,非「超能力者」不要?中国AI开启「做产品」的关键一跳 | 雷峰网 清华大学 X 追觅扫地机:共建校级实践基地,开启顶尖工程师“养成计划” | 雷峰网 独家丨腾讯云国际中东和北非区域副总裁胡丹离职 | 雷峰网 阿里云为什么「重构自己」? | 雷峰网 OpenAI放弃的事,为什么阿里可能做得成 | 雷峰网 阿里国际接近盈利背后,速卖通品牌化与AI提效双线并进 | 雷峰网 对话朱郴:深度拆解金山办公2026民企分销渠道打法 | 雷峰网 抖音“前沿科技首发计划”启动,首站落地Google I/O 2026大会 | 雷峰网 拿下韩国市场跨境平台第一!速卖通持续加码韩国市场 | 雷峰网 我在矿山深处送拼多多快递 | 雷峰网 万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」 | 雷峰网 复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026 | 雷峰网 商汤国香资本合伙人李扬:GPU估值翻倍、RISC-V站上台前,资本如何锁定确定性? | 雷峰网 万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」 | 雷峰网 智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速 | 雷峰网 7.3折!近5年折扣力度最大的一届天猫618,5月21日正式开卖 | 雷峰网 有人凌晨4点收到解雇信…Meta全球再裁8000人,赔偿方案曝光;沉寂半年露面!东方甄选前CEO孙东旭直播卖书;长鑫科技IPO,5月27日上会 | 雷峰网 全球首部95分钟AI长片将在戛纳电影节首映,由Seedance 2.0制作 | 雷峰网 拆解有道“子曰4”全量开源:如何通过重构思维链打下落地成本? | 雷峰网 国产GPU进军AIPC:铠大师与摩尔线程达成生态共建合作 | 雷峰网 2026 字节跳动奖学金启动!首次开放全球申请,奖励名额增加 | 雷峰网 上线一周登顶 Skill 商店热榜,AnySearch 正在重构“AI 时代搜索引擎” 从宜宾走向全球,MOVA智能制造基地正式量产 | 雷峰网 独家丨AWS大中华区顾凡、凌琦、朱翊三位 L8 高管离职 | 雷峰网 2026上半年最大IPO:Cerebras 上市,撕开美股「五大AI阵营」权力裂缝 | 雷峰网 阿里云面向Agentic时代全面升级,重磅发布全新“芯-云-模型-推理”技术体系 | 雷峰网 贝塔无限连续完成种子轮、种子+轮数亿元融资,以系统工程重构消费级具身智能 | 雷峰网 趋境科技完成数亿元 Pre-A 轮融资,加速建设高品质 AI Token 生产基础设施 全场景L4级自动驾驶第一股!驭势科技港股上市,引领L4级自动驾驶规模化落地 | 雷峰网 “声智融合、智启未来”全场景语音AI技术与产业发展战略研讨会在北京大学成功召开,开启语音交互的未来生活方式 | 雷峰网 独家丨大疆首款全景无人机上市以来全球出货量超12.5万台,市占率超98% | 雷峰网 Ozon Global调研:超七成俄买家认可中国商品质量改善,评价超越价格成首选中国商品依据 | 雷峰网 代码驱动的视觉感知:为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙 |CVPR 2026 | 雷峰网 理想汽车×火山引擎:AI智能助手纵深防御体系,为AI系上“安全带” | 雷峰网 出海四小龙合围亚马逊!全球电商流量前三AliExpress、Temu占两席 | 雷峰网 权威报告:中国AI云市场爆发,阿里云占比38.1%稳居第一,超二三四名总和 | 雷峰网 端启未来 万物新生||江原科技携新品亮相2026全球人工智能终端展 | 雷峰网 自动跟价再打八折引商家不满,京东采销怒斥:可去竞对平台寻找机会;Meta 计划全球裁员约7800人,AI转型引员工抗议;马斯克告OpenAI败诉 | 雷峰网 20万级满配运动SUV昊铂S600开启预售,权益价18.89万起 | 雷峰网 “6·18”观察丨自动跟价再打八折,京东采销怒斥商家群聊截图惹争议:“可以去竞对平台寻找机会” | 雷峰网 百度2026年Q1:总营收321亿元 AI业务占比达52% | 雷峰网 Figure机器人直播干活一整天,效果越惊艳,质疑越凶猛 | 雷峰网 2027年迈向十万台产能:矩阵超智开启具身智能量产元年 | 雷峰网 一封律师函引发的GitHub风暴:拓竹为何惹毛了全球极客? | 雷峰网 对话关梦龙:他想用 Agent 拯救你手机里的 100G 废片 快手装不下可灵了 | 雷峰网 魔法原子惊艳亮相戛纳 中国智造登临国际顶级文化盛典 | 雷峰网 豆包上线博物馆讲解模式,官方合作覆盖超20家头部博物馆 | 雷峰网 AI座舱热度持续攀升,佑驾创新引领智能座舱进入大模型时代 | 雷峰网 京东上海总部大楼「歪」了?最新通报:涉事工地已停工;话费直接扣?三大运营商齐发Token服务;卢伟冰:下半年不少国产旗舰手机将超万元 | 雷峰网 2026 Shokz Day圆满收官:韶音以「随我动听」开启全场景声态新时代 | 雷峰网 奇安信集团与北京八中签署战略合作协议 青少年人工智能安全培养基地正式揭牌 | 雷峰网 CVPR 2026 自动驾驶与协作智能梳理:模型正在走向可控真实世界 | 雷峰网 CVPR 2026 视频模型趋势梳理:不止生成下一帧,更要理解下一步 | 雷峰网 从外购到自研:中国车企夺回底盘定义权 | 雷峰网 智界V9上市发布:重塑MPV高端市场格局 | 雷峰网 CVPR 2026 四篇论文透视:大厂如何靠「算法瘦身」对抗算力涨价? | 雷峰网 追觅造车再遇坎坷:主体公司股权被冻结232万,实控人为追觅科技CEO俞浩 | 雷峰网 OpenClaw预示未来:智能体角色范式转变,AI需要具备执行能力 | 雷峰网 桌面CNC元年:资本疯抢「小拓竹」,五轴是风口还是伪命题? | 雷峰网 首次披露!载合卡车完成10亿元级战略融资,开创车云一体AI重卡全新赛道 | 雷峰网 果粉大喜!苹果深夜官宣降价:iPhone17Pro进入6000元档 ;传前华为车BU总裁被架空,千里科技高层震荡持续;虎鲸文娱旗下妙鸭相机团队解散 | 雷峰网 马斯克幼子虎头包走红,淘宝店主:店铺已经开了19年,销量翻了十几倍 | 雷峰网 端侧智能体迈入拐点,联发科如何把AI平台做成可交付的能力? | 雷峰网 对话销售易总裁邓永富:借力腾讯,能否在SaaS大洗牌中「攒足」筹码? | SaaS+Agent十人谈 | 雷峰网 芯驰科技完成近1亿美金C轮融资,加码汽车到具身智能全栈「芯」突破 | 雷峰网 独家丨望圆科技IPO只差临门一脚,权力交班暗藏风险 | 雷峰网 阿里财报:速卖通Brand+加速品牌接入,活跃买家渗透超30% | 雷峰网 文远知行最新财报:「高筑墙、广积粮」,营收超预期,Robotaxi用户规模翻倍 | 雷峰网 马化腾:腾讯AI发展不急于乱抢地盘,过去抢别人地盘基本失败了;思科拟裁员约4000人,投入更多资源到AI;林俊旸被曝创立新AI实验室 | 雷峰网 全球AI药物递送第一股剂泰科技挂牌港交所,“制药界Space X”开启生物制药新纪元 | 雷峰网 李佳琦:今年天猫618补贴预算再加30% | 雷峰网 联发科技×阶跃星辰,音乐大模型可视化部署,AI适配效率迎来质的飞跃 | 雷峰网 “收钱”Skill来了!度小满发布 ClawPay | 雷峰网 阿里云外部收入增长40%创新高,AI收入占比首破30% | 雷峰网 独家丨华为、联想、富瀚微罕见「同框」,00后空间智能创业者连续获得两轮融资 | 雷峰网 无界关怀,GReAT 2026共议具身康养未来 | 雷峰网 BMJ独家牵手氢离子,阿里健康开启国际顶刊合作起点 | 雷峰网 超600个海外新品牌赶来参加天猫618,“精细养护”成入华新风口 | 雷峰网 马斯克、库克随特朗普访华,黄仁勋虽迟但到;SK海力士中国员工无法做管理层,奖金不到韩国人的5%;390万元起!宇树发布载人变形机甲 | 雷峰网 隐私又少一点?「微信状态可看访客记录」冲上热搜,腾讯客服回应;快手计划分拆可灵AI,估值超1300亿、明年IPO上市;贾跃亭出任FF全球CEO | 雷峰网
港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策 | 雷峰网
2026-05-25 · via 雷峰网
港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策
MindVLA-U1:统一视觉语言动作架构,实现理解后规划。

    作者丨郑佳美

    编辑丨马晓宁

在自动驾驶进入大模型时代之后,行业正在从传统的“感知、预测、规划、控制”模块化流水线,逐步转向端到端智能系统。

过去,VA 模型能够直接从视觉输入生成驾驶轨迹,在规划精度和实时性上表现突出,但它们更多依赖隐式视觉特征,很难清楚解释“为什么这样开”,也难以处理那些需要语义理解和常识推理的长尾场景。

比如车辆行驶在狭窄居民区道路上,两侧停满车辆,前方可能有行人突然从车缝中出现;又比如在无保护左转路口,系统不仅要判断对向来车速度,还要理解让行关系和潜在风险;再比如施工区域、临停车辆、单纯依靠视觉到轨迹的映射往往不够,自动驾驶系统还需要像人类司机一样理解场景含义,再把理解转化为可执行的连续控制动作。

在这种背景下,VLA 被认为是更接近“会理解、会解释、会行动”的自动驾驶方向,但此前很多 VLA 方法又面临一个现实问题:语言能力引入后,规划精度、动作连续性和推理速度往往难以同时保证。

正是在这种行业矛盾下,香港中文大学 MMLab、理想汽车和清华大学的联合研究团队提出了《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》这项研究。

研究试图回答一个关键问题:自动驾驶中的语言理解,究竟能不能真正帮助动作规划,而不是只作为解释文本存在。围绕这一问题,研究团队没有简单地扩大模型规模,而是从架构接口入手,把视觉、语言、车辆状态、历史记忆和动作生成统一到同一个 VLM backbone 中,让模型既能理解道路场景,也能直接生成连续驾驶轨迹。

更重要的是,研究通过 Intent-CFG 让语言侧预测出的驾驶意图参与轨迹生成,通过 streaming memory 让模型像真实车辆一样逐帧处理连续视频流,并通过快 / 慢推理路径在实时控制和语义推理之间切换。

也就是说,当道路场景简单时,系统可以快速给出动作;当场景复杂、风险较高或需要解释时,系统可以保留语言推理能力,再生成更有语义依据的驾驶轨迹。这使得研究不只是一次模型指标提升,更是在探索自动驾驶从“看见后执行”走向“理解后行动”的一种新架构路线。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

论文地址:https://arxiv.org/pdf/2605.12624

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

01

当 VLA 开始超过 VA

实验结果显示,MindVLA-U1 在 WOD-E2E 自动驾驶 benchmark 上取得了较强的整体规划效果,尤其是在加入 RL 后,验证集 RFS 达到 8.20,而人类驾驶参考轨迹的 RFS 是 8.13,说明模型在开放环评测中生成的轨迹质量已经超过人类驾驶参考,体现出研究团队提出的统一 VLA 架构在轨迹规划上的优势。雷峰网

在官方测试集中,MindVLA-U1 + RL 的 RFS 达到 7.87,取得最高表现,同时 RFS-GT ADE 达到 1.09 / 2.66 m,轨迹误差低于多数已有 VA 和 VLA 方法,说明这种方法并不是只在验证集上有效,在隐藏测试集上也具有较好的泛化能力。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

语言对动作的影响也得到了实验验证,普通 MindVLA-U1 的 RFS 是 7.83,加入 NTP 预测 intent 后,RFS 提升到 7.92,说明语言侧预测出的驾驶意图可以通过 Intent-CFG 引导连续轨迹生成,使语言信息真正进入动作生成过程,而不是只作为解释或附加输出存在。雷峰网(公众号:雷峰网)

流式记忆模块同样表现出明显作用,chunk-wise 单帧训练的 RFS 是 7.69,streaming training 提升到 7.73,streaming + memory 进一步提升到 7.83,说明仅仅按帧进行流式训练还不够,加入历史记忆后,模型能够更好利用时间上下文,从而改善连续驾驶场景中的长期规划效果,同时长时间轨迹预测中的 ADE 也整体下降,例如 25 s 序列 ADE 从 1.54 降到 1.50。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

快 / 慢路径实验说明,慢路径可以保留语言推理能力,更适合复杂场景或安全敏感场景,快路径则跳过语言生成,直接进行动作规划,在保持较好规划质量的同时让推理速度接近 VA 方法,表明 VLA 模型不一定只能“慢而重”,也可以通过不同推理模式在语义理解和实时控制之间切换。

模型规模实验进一步说明,性能提升并不只依赖更大的 VLM backbone,不同尺寸下结果并不是越大越好,其中 2B 左右表现较好,9B 模型在默认训练设置下没有明显优势,延长训练后 9B 有一定恢复,说明当前瓶颈不只是模型大小,还包括训练数据规模、训练时长、动作接口设计和任务适配方式等因素。

总体来看,研究结果表明,MindVLA-U1 的优势来自多个部分共同作用,包括统一的视觉语言动作 backbone、连续动作生成方式、Intent-CFG 语言到动作桥接、流式记忆机制、快 / 慢推理路径以及 RL 后训练,这些设计共同改善了 VLA 在自动驾驶轨迹规划中的精度、泛化能力、实时性和语义可控性。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策
港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

02

让模型像真实车辆一样连续感知

实验经过方面,研究基于 WOD-E2E 数据集展开,数据来自真实自动驾驶场景,每段驾驶片段约 20 秒,并且包含多摄像头 360° 视觉输入,因此能够覆盖车辆周围不同方向的环境信息。

由于数据集中包含较多长尾场景,研究团队可以用它测试模型在复杂驾驶情况中的轨迹规划能力,而不是只验证模型在普通、规则、容易预测场景中的表现。

主要评测内容集中在两个方面,一方面评测模型预测轨迹的质量,使用 RFS 衡量预测轨迹是否符合人类评审偏好,使用 ADE 衡量预测轨迹和参考轨迹之间的距离误差,另一方面也评估语言输出质量,例如 VQA 的 BLEU 和 ROUGE,用来判断模型在保留驾驶规划能力的同时,是否还能维持语言理解和回答能力。

模型输入包括当前多视角图像、车辆自身历史状态、文本问题或语言提示、历史 streaming memory,以及带噪声的动作 token,这些信息共同进入模型,使模型既能看到当前道路环境,又能利用车辆历史运动状态和之前帧中保留下来的时序信息。

模型输出包括语言回答和连续驾驶轨迹,二者由同一个共享 backbone 完成,不是先用一个模块做语言理解,再交给另一个独立模块规划动作,也不是把动作表示成离散坐标 token,而是直接生成连续轨迹,这样可以减少离散化带来的精度损失。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

统一 backbone 设计中,视觉、语言、车辆状态、记忆、动作 token 会一起进入 VLM backbone,语言通过自回归方式生成,动作通过 flow-matching 方式生成,两类任务共享模型表示,使语义理解和动作规划能在同一模型内部结合。

流式记忆设计中,模型不是一次性输入固定长度视频片段,而是每次只处理当前帧,历史信息通过 FIFO memory 保存,memory 会随着车辆运动进行对齐,每一帧处理后,模型还会写入新的 memory,从而让历史上下文在连续驾驶过程中不断传递,这种方式更接近真实自动驾驶中的连续视频流,也减少了重复处理多帧视频带来的计算负担。

Intent-CFG 设计中,模型先预测当前驾驶意图,例如直行、左转、右转等,再把这个 intent 作为条件,引导动作扩散过程,并通过 CFG 让 intent 对轨迹生成产生影响。

实验还对比了无 intent、轨迹派生 intent、GT intent 和模型预测 intent,结果显示模型预测 intent 的效果最好,说明由语言侧预测出的驾驶意图更能帮助模型生成合理轨迹。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

快/慢推理设计中,vqa_first 表示先语言推理再动作规划,action_first 表示先动作规划再生成语言解释,action_only 表示只生成动作不生成语言,不同模式共享同一套模型权重,因此部署时可以根据场景复杂度选择推理方式,简单场景中使用更快的动作路径,复杂或安全敏感场景中保留语言推理能力。

最后,在监督训练后,研究人员进一步使用 RL 优化模型,奖励信号主要来自 RFS,使模型生成的轨迹更符合人类评审偏好,并最终取得验证集和测试集上的最好结果。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策
港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

03

自动驾驶 VLA 接口的重构

实验意义在于重新解释 VLA 过去落后 VA 的原因,研究团队认为,VLA 过去规划效果差,并不是因为语言天然会伤害控制能力,而是因为接口设计不合理,例如一些方法把本来需要保持高精度的连续轨迹离散成语言 token,导致动作表达受到 token 精度限制,也有一些方法把语言模块和动作模块分离得太远,使语言理解结果难以真正影响轨迹规划,还有一些方法在时间建模上依赖固定视频 chunk,容易造成计算冗余和片段边界不连续。

基于这种判断,MindVLA-U1 证明 VLA 可以同时兼顾理解和控制,模型既保留语言理解能力,又保留连续动作生成能力,不需要为了获得语言接口而牺牲轨迹精度,也不需要在推理时把语言模块完全丢掉。

更重要的是,研究让语言真正进入驾驶决策过程,过去很多 VLA 虽然拥有语言头,但语言并没有明确影响动作,更多只是作为解释或辅助输出存在,而 MindVLA-U1 通过 Intent-CFG 建立了语言到动作的可测量路径,使驾驶意图不只是对结果的说明,而是能够改变轨迹生成方向,从而让语言侧理解对连续控制产生实际作用。

研究也更适合真实自动驾驶部署,因为真实驾驶是连续视频流,而不是固定长度片段,streaming memory 能让模型按帧处理场景,同时保留历史上下文,并减少重复处理多帧视频带来的计算浪费,使模型更接近真实车辆持续感知和持续规划的工作方式。

快/慢系统统一方案也是重要意义之一,简单场景可以走 action_only 快路径,直接生成动作以满足实时控制需求,复杂场景可以走带语言推理的慢路径,让模型在安全敏感或语义复杂情境中进行更充分分析,一个模型即可覆盖不同计算需求,有助于实际部署中平衡实时性和安全性。

整体来看,研究推动了自动驾驶 VLA 架构发展,其重点不是单个模块改进,而是统一语言、视觉、记忆、动作的整体接口,为后续自动驾驶模型设计提供了参考价值。

同时,研究也留下进一步探索空间,当前主要是开放环评测,还没有充分验证闭环驾驶表现,目前只使用了较简单的 3 类 intent,MindLabel 中更丰富的 20 类 intent、轨迹评价 QA、CoT rationale 还没有充分利用,后续仍可以继续提升长尾场景处理能力、多模态动作选择能力和闭环安全性。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

04

MindVLA-U1 背后的研究者

这篇论文的通讯作者为李鸿升,香港中文大学电子工程系 Multimedia Laboratory 副教授,同时兼任香港中文大学计算机科学与工程系副教授,并将于 2026 年 8 月 1 日起晋升为正教授。

他于 2006 年获得华东理工大学自动化专业工学学士学位,2006 年至 2007 年在上海交通大学模式识别与智能系统方向学习,随后进入美国 Lehigh University 攻读博士,并于 2012 年获得计算机科学博士学位。

职业经历上,他曾在电子科技大学电子科学学院担任副教授,之后在香港中文大学电子工程系先后担任博士后、研究助理教授和助理教授,并自 2022 年 7 月起担任副教授。研究方向上,他长期关注计算机视觉、医学影像、深度学习、多模态学习、生成模型、具身智能和机器人操作等领域。

学术成果方面,他在 CVPR、ICCV、NeurIPS、ICML、ACL、EMNLP、AAAI 等顶级会议持续发表成果,2025 年有 13 篇成果被 NeurIPS 接收、3 篇被 EMNLP 主会接收、7 篇被 ICCV 接收、4 篇被 ACL 接收、3 篇被 ICML 接收、11 篇被 CVPR 接收,2026 年有 3 篇成果被 ACL 接收,并有 27 篇成果被 ICML、CVPR、ICLR、AAAI 接收。

他还曾获得过 2025 年香港中文大学 Research Excellence Award、2021 年香港中文大学 Young Researcher Award、2020 年 IEEE Circuits and System Society Outstanding Young Author Award,并在 2022 年、2023 年、2024 年获得 AI 2000 计算机视觉领域最具影响力学者荣誉提名,2022 年至 2025 年入选斯坦福大学全球前 2% 顶尖科学家榜单。

除此之外,他的团队曾获得 ActivityNet Challenge 2020 时空动作定位 AVA 赛道冠军、ImageNet Video Object Detection Challenge 2015 冠军,以及 ImageNet Video Object Detection / Tracking Challenge 2016 冠军,近年研究覆盖网页生成评测、移动 GUI 智能体、多模态数学推理、图像生成、视觉生成编辑、自动驾驶场景生成和具身智能等方向。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

参考链接 :https://www.ee.cuhk.edu.hk/~hsli/

另一位通讯作者为朱本金(Benjin Zhu),目前是理想汽车的研究科学家,同时在清华大学从事博士后研究,合作导师为代季峰教授。

他于 2025 年在香港中文大学电子工程系获得博士学位,博士期间隶属于 Multimedia Lab,导师为李鸿升教授和王晓刚教授,并于 2018 年在华南理工大学获得软件工程学士学位。

职业经历方面,他曾于 2019 年 1 月至 2021 年 5 月在旷视研究院担任研究员,研究方向包括端到端目标检测、无监督 / 自监督学习和研究基础设施,2025 年 5 月起在理想汽车担任高级研究工程师,主要关注世界模型、视觉语言动作模型和强化学习。

他聚焦视觉语言动作模型、扩散模型、世界模型和 AI 基础设施。学术成果方面,他参与了多项计算机视觉、三维感知和自动驾驶相关研究,成果曾被 ICCV、ECCV、CVPR 等国际顶级会议接收。

除此之外,他还曾获得 WAD CVPR 2019 首届 nuScenes 3D 目标检测挑战赛冠军,并对多个开源计算机视觉框架作出重要贡献,相关框架覆盖三维检测、视觉任务实验管理和通用深度学习研究基础设施。

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

参考链接:https://benjin.me/

这次去 CVPR 现场,一定不要错过

【认识大牛+赚外快】的机会

需要你做什么:把你最关注的10个大会报告,每页PPT都拍下来

你能获得什么?

认识大牛:你将可以进入CVPR名师博士社群;

钱多活少:提供丰厚奖金,任务量精简;

听会自由:你的行程你做主,顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR,想边听会边赚钱,还能顺便为AI学术社区做贡献、认识更多大牛,欢迎联系我们:[添加微信号:MS_Yahei]

限额5位,先到先得

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策

雷峰网原创文章,未经授权禁止转载。详情见转载须知

港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策