惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

I
InfoQ
Last Week in AI
Last Week in AI
大猫的无限游戏
大猫的无限游戏
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
V
V2EX
D
Darknet – Hacking Tools, Hacker News & Cyber Security
WordPress大学
WordPress大学
H
Help Net Security
P
Proofpoint News Feed
B
Blog
腾讯CDC
博客园 - 司徒正美
Recorded Future
Recorded Future
酷 壳 – CoolShell
酷 壳 – CoolShell
S
Security Archives - TechRepublic
N
News and Events Feed by Topic
T
The Exploit Database - CXSecurity.com
www.infosecurity-magazine.com
www.infosecurity-magazine.com
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
O
OpenAI News
GbyAI
GbyAI
Attack and Defense Labs
Attack and Defense Labs
T
Troy Hunt's Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
F
Future of Privacy Forum
V
Vulnerabilities – Threatpost
T
Threatpost
The Cloudflare Blog
Recent Announcements
Recent Announcements
爱范儿
爱范儿
S
Schneier on Security
Blog — PlanetScale
Blog — PlanetScale
Cyberwarzone
Cyberwarzone
T
The Blog of Author Tim Ferriss
T
True Tiger Recordings
P
Proofpoint News Feed
S
Secure Thoughts
F
Fox-IT International blog
aimingoo的专栏
aimingoo的专栏
阮一峰的网络日志
阮一峰的网络日志
M
Microsoft Research Blog - Microsoft Research
F
Full Disclosure
Google Online Security Blog
Google Online Security Blog
T
Threat Research - Cisco Blogs
S
Securelist
罗磊的独立博客
L
Lohrmann on Cybersecurity
博客园 - 三生石上(FineUI控件)
T
Tailwind CSS Blog
MongoDB | Blog
MongoDB | Blog

人人都是产品经理

终于,微信公众号也不让你留个人微信号了 中国Agent产业发展趋势——《重构与崛起——OpenClaw时代的中国Agent产业生态报告》解读五 – 人人都是产品经理, AI还原页面设计怎么做?我实测后总结了这套「块状精修法」! – 人人都是产品经理, AI用户体验要素二:那些无法忽略的UI交互行为 – 人人都是产品经理, 货代员工管理实战:如何把考勤、加班和人力成本做成可控的经营数据? – 人人都是产品经理, 月薪5万也招不到?AI产品经理的真实薪资与隐形门槛 – 人人都是产品经理, 大多数AI产品,其实是在给自己人做的 – 人人都是产品经理, 运营人必懂的3步数据分析逻辑,一线业务应用指南 – 人人都是产品经理, 我的AI写稿全流程公开 – 人人都是产品经理, 从 Gemini 实时多模态狂欢降温:B 端产品经理该怎么看这场 Omni 进化 – 人人都是产品经理, AI搜索没有杀死广告。它只是把广告藏进了你信任的那句话里 – 人人都是产品经理, 跨境税务系统:边界、能力与风险前置06 如何创建一家AI Native公司?Anthropic刚发的这份手册,把答案说清楚了 – 人人都是产品经理, 跨境账务系统:在不确定中形成可解释结果05 – 人人都是产品经理, Electron-OH 37.2.1 正式发布:鸿蒙PC开发体验全面升级,跨端开发再提速 – 人人都是产品经理, Notion CEO重新定义了一件事:什么样的人在AI时代真正值钱 – 人人都是产品经理, Notion CEO重新定义了一件事:什么样的人在AI时代真正值钱 – 人人都是产品经理, AI搜索的广告比你想象中更危险:它连你的怀疑都省了 – 人人都是产品经理, 做了一年客服型外呼 Agent,我发现旧的效果评估体系正在失效 – 人人都是产品经理 我以为用户好评是成功,直到我发现它背后藏着一个致命的陷阱… – 人人都是产品经理, 谷歌 I/O 炸场看完了:别再用百万级的自嗨对话框去增加企业的翻译税 – 人人都是产品经理, AI写代码的速率是人的10倍,端到端却只快了2倍:产品经理视角下,没人讲清楚的3件事 – 人人都是产品经理, 提示词的本质:不是“咒语”,而是 AI 产品设计中的需求表达能力 – 人人都是产品经理, 和代运营合作5年后,我真的不建议大健康私域再找代运营了! – 人人都是产品经理, 场景不同,测评方法需要因地制宜:最新摸索的测评“四象限法则”分享 – 人人都是产品经理, 为什么很多人抄爆款,越抄越不像? – 人人都是产品经理, 妙鸭AI生图团队解散:从”时代宠儿”到”被遗忘者”的启示 – 人人都是产品经理 构建数字孪生生态:从封闭系统到开放平台 – 人人都是产品经理, 一文讲透医疗 AI 的隐私合规:技术、场景、落地、避坑 90%的模型微调是浪费钱的——我说“不调” – 人人都是产品经理, 企业可以这样落地 AI 能力(二):技能蒸馏 – 人人都是产品经理 鸿蒙 HarmonyOS 6.1.1 (API 24) Beta1 发布:开发能力全面升级,构建更高效智能生态 – 人人都是产品经理, Claude 三件套:从想清楚,到看得见,到做出来。它要把”想法变产品”全包了 Claude 三件套:从想清楚,到看得见,到做出来。它要把”想法变产品”全包了 – 人人都是产品经理 为什么餐厅都在劝你去买团购券? – 人人都是产品经理, 最近几个月的AI大模型独立应用实践-1 – 人人都是产品经理, 最近几个月的AI大模型独立应用实践-1 – 人人都是产品经理, 别让模型拖后腿:我用6年产品经验总结的AI选型法则 – 人人都是产品经理, 我做了一个对比实验:为什么同一个模型,两个 AI 工具产出差距如此巨大 – 人人都是产品经理, AI用户体验要素一:从“操作工具”到“委托代理人” – 人人都是产品经理, 不是教你用 AI 写 PPT,是把 AI 训练成”你自己” – 人人都是产品经理 Google I/O 2026 XR篇:最轻的眼镜没有界面 – 人人都是产品经理, 深聊100家教育企业后,我总结了7种链路拆解线索获客链路 – 人人都是产品经理, GEO 产品如何用 RAG 提高品牌命中率? – 人人都是产品经理, 跨境系统 vs 国内系统:差异、坑与产品心法07 – 人人都是产品经理, 年增速25%、线上占比冲60%,拆解AI心理疗愈的商业底层逻辑 – 人人都是产品经理, Agent 工作流,踩过的几个坑 – 人人都是产品经理, Vibe Coding 之后,真正拉开差距的是“AI 项目管理能力” – 人人都是产品经理, 新个体如何运营好小红书账号? – 人人都是产品经理, 从 OPC 到 OPD:企业如何建立 AI 原生部门? – 人人都是产品经理, Qwen3.7-Max来了:一个拼命干活的AI 一套代码走全球:汽车出海系统架构的“避坑”指南 – 人人都是产品经理, 2026,关于小红书反常识的实践 – 人人都是产品经理, LLM Wiki实战篇:少花token,多沉淀知识 – 人人都是产品经理, 我做了一个本地运行的甘特图工具,顺便让 AI 帮我拆项目计划 – 人人都是产品经理, RAG踩坑实录:很多坑开发不会主动告诉你 – 人人都是产品经理, Google I/O 2026 AI篇:当Google说”AI变得更聪明”,它其实在说”界面可以消失了” – 人人都是产品经理 什么是无可替代的业财一体化产品? – 人人都是产品经理, 「不就是发个货?」——这句话坑过多少电商产品 – 人人都是产品经理 企业拥抱Agent行动指南——《重构与崛起——OpenClaw时代的中国Agent产业生态报告》解读四 – 人人都是产品经理, 当泡沫散尽,B端AI公司里值钱的只剩这一种人 2016怀旧潮:一场对“真实人格”的系统修复 – 人人都是产品经理, 即时零售:零食品牌的下一场“抢滩登陆战” – 人人都是产品经理 大模型时代的认知反转:我们为何从渴望“千人千面”转向渴求“稳定可控” – 人人都是产品经理, 美团的TOB商家运营模式拆解——把成熟的东西重新拆解一遍,就能发现新东西(一) – 人人都是产品经理, 每提问一次亮灯两分钟,生图一次充满一部手机:请收起你们的算力自嗨 – 人人都是产品经理, 「招投标AI落地观察」暗箱里的算力 —— AI时代招标文件的潜规则识别 – 人人都是产品经理 属于小红书的种草时代,结束了 – 人人都是产品经理, 如何用AI打造一家自我进化的公司 – 人人都是产品经理, 如何用AI打造一家自我进化的公司 – 人人都是产品经理, 人形机器人拾取沙发缝隙掉落物件 – 人人都是产品经理, 人形机器人拾取沙发缝隙掉落物件 – 人人都是产品经理, “人货场模型”深度拆解:分析框架、建模思路、业务建议 – 人人都是产品经理, 万字干货:这可能是全网最实战的「用 Claude Code 做产品」完整方法论 – 人人都是产品经理, AI PM 的 PRD,越写越像半截草稿 – 人人都是产品经理 AI产品如何从 Skill 走到虚拟员工? – 人人都是产品经理, FDE 是什么:不是销售工程师,也不是咨询顾问 – 人人都是产品经理 建设中医科研数据库和西医科研数据库,到底差别在哪?(一) – 人人都是产品经理, 图片转 Prompt · Web Coding 工作流 – 人人都是产品经理 一文看懂VLM:自动驾驶里那个会看图说话的AI – 人人都是产品经理, 模型越强,为什么 Agent 框架反而更重要? – 人人都是产品经理, 从AI智能体演进史,看智能硬件的过去与未来 – 人人都是产品经理, 一个好的记忆Agent是什么样的? – 人人都是产品经理, AI 不再是 App,AI 是新的电脑,只是大多数人还没反应过来 – 人人都是产品经理, 小红书电商内容团队组织架构解析 – 人人都是产品经理, 给 Agent 装上眼睛和手:OpenCLI 深度体验 – 人人都是产品经理 一个AI产品经理的30天深度复盘:我发现了五个“反常识”铁律 – 人人都是产品经理, 跨境票据系统:为了开票or留证?04 – 人人都是产品经理, AI 产品经理如何设计模型路由策略 – 人人都是产品经理, 从碳纤维工厂跑出来的 AI PM:不搞套壳对话框,我靠三个“土味”项目干翻了业务痛点 – 人人都是产品经理, 家用人形机器人为坐姿用户递水 – 人人都是产品经理, 从按钮到对话:AI 时代软件形态的演进与可能 – 人人都是产品经理, 做陪伴机器人,我最先想清楚的是 AI 不该做什么 – 人人都是产品经理, 深度拆解蚂蚁阿福和氢离子:医疗AI产品的5个核心分野与10条PM启示 – 人人都是产品经理 微调 vs RAG,AI产品经理怎么选? – 人人都是产品经理, 从木鸟、途家、美团首页设计,看流量分发和业务逻辑 – 人人都是产品经理, 拆解具身智能(硬件本体):基本定义、组成部件和商业化 – 人人都是产品经理, 一文看懂 OpenHarmony 跨平台框架生态:9 大仓库全解析 – 人人都是产品经理, 黄仁勋:AI Infra 将建设十年,Agent 才刚刚开始进入生产系统 – 人人都是产品经理, 黄仁勋:AI Infra 将建设十年,Agent 才刚刚开始进入生产系统 – 人人都是产品经理,
一文看懂VLA:自动驾驶的下一个范式 – 人人都是产品经理,
小王的智驾科普 · 2026-05-23 · via 人人都是产品经理

VLA(视觉语言动作模型)正在颠覆自动驾驶的底层逻辑。这项源自机器人领域的技术,通过整合视觉感知、语言推理与动作控制,让车辆首次具备'理解世界'的能力。从谷歌DeepMind的RT-2到小鹏VLA 2.0的量产落地,本文将深度解析这一技术如何跨越行动鸿沟,以及它面临的泛化挑战与安全考验。

上一篇文章也提到,VLM的输出仅停留在语言层面,无法直接驱动车辆执行动作,存在行动鸿沟。为了弥补这个断层,VLA应运而生。

VLA(Vision-Language-Action Model,视觉语言动作模型),就是在VLM基础上引入动作输出能力的端到端模型。它将视觉感知、语言推理、动作控制三者统一在同一个模型框架内,实现从多模态输入到驾驶控制指令的完整闭环。

有意思的是,VLA这个概念最早出现在机器人控制领域。2023年7月,谷歌DeepMind发布RT-2,VLA概念正式诞生,最初用于机器人手臂的抓取控制。

在具身智能领域,RT-2的发布迅速引发了学术界的关注。在AI领域最权威的三大会议之一ICLR中,2024年VLA相关论文仅有1篇,2025年增至9篇,到2026年直接飙升到164篇,三年翻了两个数量级,这说明全球学界已在集体押注这一方向。

学术验证之后,工业界随即跟进。2023年9月,Wayve发布LINGO-1,VLA思路第一次被引入自动驾驶。此后学术界和工业界同步提速——2024年,CoVLA构建了第一个大规模自动驾驶VLA数据集,推动了VLA在自动驾驶领域的系统化研究。2025年11月,小鹏VLA 2.0发布,并于2026年3月开始OTA量产推送,成为目前最具代表性的VLA自动驾驶量产案例。

VLA的三个模块:V、L、A分别是什么

V——Vision(视觉模块)

Vision模块是VLA的眼睛,负责感知车辆周围的物理世界,并将这些原始信息转化成模型能够理解的格式。

它的感知系统由摄像头和多种传感器共同构成。

摄像头围绕车身一圈布置——前方1至3个,左右两侧各1至2个,后方1个,车顶有时还装有广角摄像头,确保360度无死角覆盖。

传感器方面,主要包括四种:

LiDAR(激光雷达)装在车顶正中央,像旋转的圆柱体,每秒向四周发射数百万条激光束,生成密密麻麻的彩色点云图,能精确呈现物体的三维形状、距离和地面起伏,探测范围360度,距离100至200米。

RADAR(毫米波雷达)藏在车头保险杠和车尾角落,通常4至6个,输出的是距离加速度的数据图,能测算前方最远200米、侧方60至80米内物体的距离和移动速度,雨雾天和黑夜依旧可用。

IMU(惯性测量单元)藏在车内,包含加速度计和陀螺仪——加速度计感知车辆加速、减速、刹车时的力度变化,陀螺仪感知车辆转弯的角度,两者合在一起让车知道自己在怎么运动。

GPS负责全球定位,告诉车辆自己在地球上的位置。

四种传感器互相补充——摄像头看不清的,LiDAR来补;LiDAR被雨雪干扰的,RADAR来补;GPS信号弱的,IMU来推算。即使在极端天气下,车辆也不会完全”失明”。

但采集到画面和数据还不够,Vision模块还需要把这些原始信息转化成模型能够理解的格式。摄像头拍到的是平视画面,系统会通过算法将其转化为BEV(鸟瞰图)——从正上方俯视的视角,让车辆和行人之间的真实距离一目了然。

随后,视觉编码器将这些画面转化为视觉Token,也就是模型内部能够处理的数字格式,供Language模块进行理解和推理。

L——Language(语言模块)

Language模块是VLA的大脑,负责理解Vision模块传来的视觉信息,并结合语言指令做出推理和决策。它的核心是大语言模型,比如LLaMA、Qwen等。

Language模块同时接收两类信息:一类是来自Vision模块的视觉信息,摄像头和传感器采集到的画面,经过视觉编码器处理之后,已经转化成Language模块能够读懂的格式;另一类是文字信息,包括你设定的导航目的地、系统内置的交通规则,或者你直接对车说的话。

接收这两类输入之后,Language模块不是输出一段语言描述,而是输出Action Token——一种结构化的行动意图指令,直接传给Action模块解码成方向盘转角、油门、刹车等控制信号。这是VLA和VLM最根本的区别:VLM说出来但不会动,VLA的Language模块说完了直接传给手脚执行。

但Language模块需要理解的语言,远不止”在下一个路口左转”这么简单。

在自动驾驶数据标注工作中,标注人员会用一句话描述当前场景的问题,比如”前方行人通过,自车未减速,具有VRU碰撞风险”。这类描述会直接作为训练数据进入Language模块。

模型看到类似场景时,就能理解潜在的风险并做出正确判断。Language模块的语言理解能力,很大程度上正是来自这类真实场景的语义标注积累。

A——Action(动作模块)

Action模块是VLA的手脚,负责把Language模块输出的Action Token转化成车辆真正能执行的控制信号。

它的输出有两种形式:一种是直接的底层控制量,包括方向盘转角、油门踩多少、刹车力度;另一种是未来几秒的行驶轨迹,也就是规划出接下来车要走的路径,再交给底层控制器执行。

Action模块是整个VLA闭环里最后也是最关键的一环。Vision看懂了世界,Language想清楚了该怎么做,但如果Action模块输出的动作不够精准、不够平滑,前面两个模块做得再好也没有意义。它直接决定了乘客坐在车里的真实感受——是顺畅的行驶,还是急刹和抖动。

VLA的优点

减少模块间的信息损耗

以前自动驾驶把感知、预测、规控分成好几个独立模块,信息每传一次就可能出错,出了问题也很难定位是哪个环节的锅。

VLA把它们统一在一个模型里,信息直接流通,减少了中间传递带来的误差。

能理解复杂的语义场景

传统端到端模型遇到训练数据里没出现过的情况,往往直接失效。VLA继承了大语言模型的常识推理能力,能理解”前方是学校要减速”、”交警在路口指挥要让行”这类语义,处理复杂和陌生场景的能力更强。

决策更全面、执行更稳定

VLA生成动作时,不只看当前这一帧画面,还会综合考虑当前车速、历史动作等状态信息,因此在复杂路况下表现更稳定,也能更好地完成需要连续多步骤的长距离驾驶任务。

响应速度更快

与传统模块化系统相比,VLA省去了模块间的信息传递等待,整体响应更快。但加入语言推理层之后计算量也随之增加,速度不一定比纯端到端更快。这也是为什么小鹏VLA 2.0专门去掉了语言转译层,把推理时延压缩到80毫秒,在速度和智能之间找到平衡。

VLA面临的挑战

尽管VLA在自动驾驶领域展现出巨大潜力,但目前仍面临两个尚未完全解决的核心挑战。

模型泛化能力不足

VLA能处理好它”见过”的世界,但现实道路的复杂程度远超任何训练数据集。换一个城市、换一种天气、遇到施工临时导改或交警打手势,模型往往束手无策。

更深层的原因在于,仿真环境和真实道路之间始终存在差距——光线、物体纹理、其他车辆的行为模式都和现实有细微不同,模型在仿真里学到的东西无法百分之百迁移到真实道路上。

行业目前的应对方向是两条腿并行:持续扩大真实场景的数据采集范围,同时借助仿真平台生成极端场景数据作为补充。但这条路成本高、周期长,是一场持续的消耗战。

安全可靠性有待验证

VLA的语言推理能力让它比传统端到端更聪明,但聪明不等于安全。传感器在强光、雨雾、硬件故障等极端条件下可能出现感知失效,语言推理模块在高度模糊的场景下也可能输出错误判断,最终导致危险的控制指令。

因此工程层面需要额外的机制兜底——模型置信度低于阈值时,接管机制立刻提醒驾驶员介入;主模型异常时,Fallback机制立即切换到保守策略,比如减速靠边停车。

换句话说,VLA的智能负责应对常规和复杂场景,安全机制负责在模型失效时守住最后一道防线。

总的来看,不论是小鹏VLA 2.0的量产落地、理想MindVLA的发布,还是ICLR上VLA相关论文三年翻了两个数量级,都在指向同一个方向——VLA正在成为自动驾驶的下一个核心范式。

但这条路还远没有走完。

从技术层面看,VLA仍在快速迭代。如何进一步缩小仿真与现实的差距、如何让模型在更少数据的情况下适应新城市新场景、如何在保持智能推理能力的同时把推理速度压得更低——这些问题还没有标准答案,各家车企和研究机构都在用自己的方式探索。

从行业层面看,VLA的意义不只是让车开得更好。它让自动驾驶系统第一次真正具备了”理解世界”的能力,而不只是”执行规则”。这个转变,或许才是从辅助驾驶走向真正无人驾驶最关键的一步。

值得关注的是,VLA的底层框架同样适用于机器人、无人机等其他需要感知世界并做出行动的物理设备。自动驾驶只是它落地最快的场景,但不会是终点。

本文由 @小王的智驾科普 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议