引言
自动驾驶技术的快速迭代,离不开一套高效、可靠、全面的算法评测体系作为质量底线。本文将从团队定位、评测范围、指标设计、数据建设、评测流程、平台工具以及体系规划等维度,分享我们在自动驾驶算法评测方面的工程实践与思考。
一、评测团队定位
为自动驾驶算法提供模型性能评估与版本质量监控能力,服务于两大方向:
- 车端量产算法团队:提供模型性能、版本质量评估
- 数据算法团队:提供模型性能、数据质量评估
最终目标是实现数据 → 研发 → 评测的闭环体系,关键工作包括:
- 评测标准体系建设
- 评测场景及数据集建设
- 评测指标及工具链建设
- 发版监控与评测报告输出
团队由算法工程师、技术开发、数据标注与分析等多个角色组成,覆盖从评测能力建设、指标开发、数据运营到评测报告输出的全流程。
二、评测业务范围
2.1 算法覆盖
评测体系覆盖车端算法和数据算法两大类:
车端算法:
|
领域
|
模块
|
行车
动态感知、静态感知、定位、地图、规控、在线标定
泊车
泊车感知、泊车定位、泊车建图、泊车规控
数据算法:
|
类型
|
模型
|
预标模型
OD 预标、LD/TSR/TFL 预标、OCC/Depth 预标
标签模型
场景标签生产模型
世界模型
场景重建、风格迁移、泛化生成
2.2 评测指标体系
评测指标的设计围绕要素覆盖 × 指标覆盖 × 评测维度 × 匹配方式四个层次展开,以行车感知为例:
动态感知:
- 要素覆盖:车辆、VRU(行人/骑行人)、施工障碍物、封路状态、主安场景、市政车、开关门车、车尾灯、轨迹预测等
- 核心指标:Precision / Recall / F1-Score,横/纵/角度误差,轨迹预测 ADE/FDE 等
- 评测维度:按距离分段(近/中/远)、按目标类型、按场景复杂度
- 匹配方式:2D 匹配、3D 匹配、轨迹匹配
静态感知:
- 要素覆盖:车道线、路沿线、中心线、地面标识、分离合流点、减速带、信号灯、限速标牌、路口面
- 评测维度:当前道路 vs 目标道路
- 匹配方式:线匹配、点匹配
定位模块:
- 算法类型:绝对定位、相对定位、RTK 定位
- 异常指标:异常次数/时间/里程及占比
- 精度指标:车载坐标系与导航坐标系下的位置、速度、姿态误差
规控模块:
- 功能覆盖:点刹急刹、骑线压线、不合理换道、轨迹画龙
- 指标维度:按场景类型与功能模式分层评估
泊车模块的评测逻辑与行车类似,额外关注库位检测、障碍物地图、路径规划合理性等要素。
数据算法(世界模型):
- 指标覆盖:Precision / Recall / F1-Score、Domain-Gap、PSNR、FID、FVD 等
- 同时建设了合成数据产线面板与全自动化重建 + 评测工作流
三、评测数据建设
3.1 数据来源
|
来源类型
|
说明
|
采集数据(正向)
按场景需求主动采集,经筛选、标注后入库
路测数据(逆向)
来自实际道路测试中发现的问题场景
量产数据(逆向)
来自量产车辆回传的异常数据
正向数据流程:需求 → 采集 → 筛选 → 标注 → 质检 → 入库
逆向数据流程:问题发现 → 数据回捞 → 关键帧标注 → 入库
3.2 标注工艺
不同感知要素采用差异化的标注工艺:
- OD(目标检测):分割点云标注
- LD(车道线):拼接点云标注
- TFL(信号灯):2D/4D 联合标注
- TSR(标牌):2D/4D 联合标注
- 场景标签:人工 TAG
标注产线规模达 150+ 人,配套建立了完整的标注规则文档体系。
3.3 场景要素池
我们系统性地构建了三层场景要素池:
|
要素池
|
一级类别
|
细分类数量
|
自然环境
时间、天气、光照、能见度、道路等级、道路类型、路段形态、路况、路面情况
87 个
静态感知
交通标志、车道线、地面标识、道路边界、信号灯、施工设施
76 个
动态感知
交通参与者、动态行为
45 个
三大要素池合计 208 个细分场景类别,用于评测集的场景分布管理和弱势场景挖掘。
3.4 数据规模
|
模块
|
数据类型
|
规模
|
行车
OD 精标
5.5 万
行车
LD 精标
5.1 万
行车
TFL 精标
1.6 万
行车
同源数据
1 万+
行车
逆向问题数据
1.7 万
泊车
OD/OM/PM 精标
约 6,300
泊车
逆向问题数据
1,000
四、评测流程设计
评测流程覆盖了算法研发的全生命周期,共设计了 7 大核心流程:
4.1 算法训练评测流程
支持算法正向研发迭代,确保算法优化与新增功能达到预期效果。
需求评审 → 数据挖掘 → 数据标注 → 算法训练 → 算法评测 → 提交合入 → 版本更新
4.2 问题修复验证流程
支持算法逆向问题修复验证,确保问题修复且无指标回退。
问题产生 → 分发 → 分析定位 → 算法修复 → 回归验证 → 合入 → 版本更新
4.3 算法合入验证流程
构建统一的算法合入质量门禁,打通上下游。
Build 验证 → MR 验证 → 专项路测 → Daily 验证(MIL/SIL/PIL/HIL/VIL)→ 路测验证
4.4 硬件变更验证流程
支持硬件选型、底软变更的算法效果验证。
变更需求 → 场景设计 → 数据采集 → 标注入库 → 对比评测 → 输出报告
4.5 数据算法评测流程
支持预标注模型与世界模型的迭代质量保障。
模型更新 → 结果输出 → 结果评测 → 模型发版 → 数据交付
4.6 数据验证流程
支持世界模型重建与生成数据的质量验证。
数据标注 → 云端迁移 → 重建/生成 → 评测验证 → 数据交付
4.7 数据驱动迭代流程(DataPilot)
通过指标与问题挖掘模型弱势场景,生成训练数据需求,数据驱动模型正向迭代。
数据挖掘 → 数据生产 → 云端预训练 → 效果评测 → 数据准出 → 车端训练 → 车端评测 → 实车测试 → 发版
五、评测报告体系
每次版本评测输出结构化报告,包含 5 个核心部分:
- 报告总结:整体结论与关键发现
- 正向指标对比:新旧版本核心指标横向对比
- 回退 Case 分析:指标回退的具体 Case 深入分析
- 回归指标对比:历史问题修复回归情况
- 回退问题分析:问题根因归类与改进建议
六、运营成果
Daily 拦截
通过 SIL 自动化 Daily 验证,实现了算法合入的质量门禁:
- 某年度 9 个月内拦截问题提交 244 个,有效率 93%
- 次年 5 个月内拦截 118 个,有效率提升至 100%
版本质量
- 从 SOP 到后续多个 RC 版本,感知质量稳步提升,无明显回退
- 出现一次感知回退后排查为研发分支管理问题,推动建立了统一的合入流程与发版阈值标准
研发支持
- 近 3 个月累计支持测试验证感知代码变更 567 个
七、体系规划:六维评测能力模型
我们提出了一个衡量评测水平的公式:
评测水平 = 数据建设规模 × 数据闭环效率 × 评测自动化水平 × 评测智能化水平 × 算法认知水平 × 质量认证能力
围绕这六个维度,分别制定了建设目标:
7.1 数据建设规模
- 接入虚幻引擎(UE),支持快速构建虚拟测试场景
- 打通世界模型数据链路,支持重建/编辑/生成指定场景
- 建设虚拟与生成数据集,覆盖行泊车困难场景
- 建设评测数据标签化管理体系与评测集迭代机制
- 目标:正向同源数据 6 万、逆向问题数据 6 万、虚拟生成数据 1 万
7.2 数据闭环效率
- 建设评测数据管理平台,统一管理需求/送标/质检/入库全流程
- 建设采集与筛选数据质检工具,提高评测数据有效性
- 优化 issue-to-case 标注工艺,逐步实现全自动化标注
- 建立 Trigger 数据运营机制,提高问题发现及时性
7.3 评测自动化水平
- 建设基于云端的 Python MIL/SIL 评测流程
- 开发评测 Diff 引擎:自动输出差异帧、差异目标
- 自动生成可视化对比文件(真值 vs 预测值 / 新旧版本)
- 自动聚类问题场景与问题表现
- 建设报告生成服务与指标看板
- 打通车端数据回灌流程,支持一致性验证
7.4 评测智能化水平
- 建设问题挖掘能力:自动分析片段是否包含算法问题
- 建设问题诊断能力:自动分析问题根因
- 建设场景理解能力:自动检测目标要素与行驶场景
- 建设场景分类能力:基于大模型进行标签生成与场景挖掘
- 打通云端与车端评测链路
7.5 算法认知水平
- 学习并参与算法问题定位,评测结果直接给出初步定位结论
- 开源模型复现与开源数据集对标,保持算法领先性
- 设计灰白盒评测方案,提高评测验证有效性
7.6 质量认证能力
- 建立原子化指标体系:模型指标、功能指标、主动安全、驾驶体验、法规场景
- 打通数据/版本/指标/问题链路,实现过程质量可追溯
- 建立统一指标看板,全方位呈现各版本智驾能力表现
八、总结与思考
自动驾驶算法评测是一项系统工程,其核心挑战在于:
- 评测对象复杂:从感知、定位、地图到规控,模块众多且相互耦合
- 数据建设成本高:精标数据依赖大规模标注产线,单条成本从几元到数百元不等
- 场景长尾化:208 个细分场景类别仍难以穷尽真实世界的复杂性
- 效率与质量的平衡:每日数百个评测任务需要在速度与精度间找到最优解
我们的实践表明,一套好的评测体系需要具备以下特征:
- 体系化:从指标设计到数据建设到流程管理,形成闭环
- 自动化:最大程度减少人工介入,提升效率和一致性
- 智能化:借助大模型能力,突破传统规则的局限
- 可度量:用数据说话,让评测结果成为决策依据
希望这些实践经验能为同行提供参考。自动驾驶的评测之路,道阻且长,但行则将至。