自动驾驶算法评测体系建设实践

博客园 - 周希

Mac上的Redis安装和使用 iPhone手机越狱-逆向砸壳-代码注入使用Apple Configurator 2提取商店ipa or app文件使用ATOMac进行Mac自动化测试 WDA支持获取WebView元素 iOS模拟器命令 Android自动化测试探索（七）代码覆盖率统计 Android自动化测试探索（五）代码覆盖率统计解决ifuse不支持24位UDID问题 Android自动化测试探索（四）uiautomator2简介和使用 iOS自动化探索（十）代码覆盖率统计 Android自动化测试探索（三）Android SDK tools安装、aapt配置以及使用aapt获取apk包名 Android自动化测试探索（二）常用自动化工具 Android自动化测试探索（一）adb详细介绍关于Mac上使用ideviceinstaller操作iPhoneXR等24位UDID设备报“ERROR: Invalid UDID specified”解决办法 mac下csv乱码解决办法 Mac安装MySQLdb遇到的坑【Python MySQLdb】Library not loaded: /usr/local/mysql/lib/libmysqlclient.20.dylib解决办法 Pycharm更换主题 Python -- 使用pickle 和 CPickle对数据对象进行归档和解析

自动驾驶算法评测体系建设实践

周希 · 2026-04-12 · via 博客园 - 周希

引言

自动驾驶技术的快速迭代，离不开一套高效、可靠、全面的算法评测体系作为质量底线。本文将从团队定位、评测范围、指标设计、数据建设、评测流程、平台工具以及体系规划等维度，分享我们在自动驾驶算法评测方面的工程实践与思考。

一、评测团队定位

为自动驾驶算法提供模型性能评估与版本质量监控能力，服务于两大方向：

车端量产算法团队：提供模型性能、版本质量评估
数据算法团队：提供模型性能、数据质量评估

最终目标是实现数据 → 研发 → 评测的闭环体系，关键工作包括：

评测标准体系建设
评测场景及数据集建设
评测指标及工具链建设
发版监控与评测报告输出

团队由算法工程师、技术开发、数据标注与分析等多个角色组成，覆盖从评测能力建设、指标开发、数据运营到评测报告输出的全流程。

二、评测业务范围

2.1 算法覆盖

评测体系覆盖车端算法和数据算法两大类：

车端算法：

行车

动态感知、静态感知、定位、地图、规控、在线标定

泊车

泊车感知、泊车定位、泊车建图、泊车规控

领域	模块

数据算法：

预标模型

OD 预标、LD/TSR/TFL 预标、OCC/Depth 预标

标签模型

场景标签生产模型

世界模型

场景重建、风格迁移、泛化生成

类型	模型

2.2 评测指标体系

评测指标的设计围绕要素覆盖 × 指标覆盖 × 评测维度 × 匹配方式四个层次展开，以行车感知为例：

动态感知：

要素覆盖：车辆、VRU（行人/骑行人）、施工障碍物、封路状态、主安场景、市政车、开关门车、车尾灯、轨迹预测等
核心指标：Precision / Recall / F1-Score，横/纵/角度误差，轨迹预测 ADE/FDE 等
评测维度：按距离分段（近/中/远）、按目标类型、按场景复杂度
匹配方式：2D 匹配、3D 匹配、轨迹匹配

静态感知：

要素覆盖：车道线、路沿线、中心线、地面标识、分离合流点、减速带、信号灯、限速标牌、路口面
评测维度：当前道路 vs 目标道路
匹配方式：线匹配、点匹配

定位模块：

算法类型：绝对定位、相对定位、RTK 定位
异常指标：异常次数/时间/里程及占比
精度指标：车载坐标系与导航坐标系下的位置、速度、姿态误差

规控模块：

功能覆盖：点刹急刹、骑线压线、不合理换道、轨迹画龙
指标维度：按场景类型与功能模式分层评估

泊车模块的评测逻辑与行车类似，额外关注库位检测、障碍物地图、路径规划合理性等要素。

数据算法（世界模型）：

指标覆盖：Precision / Recall / F1-Score、Domain-Gap、PSNR、FID、FVD 等
同时建设了合成数据产线面板与全自动化重建 + 评测工作流

三、评测数据建设

3.1 数据来源

采集数据（正向）

按场景需求主动采集，经筛选、标注后入库

路测数据（逆向）

来自实际道路测试中发现的问题场景

量产数据（逆向）

来自量产车辆回传的异常数据

来源类型	说明

正向数据流程：需求 → 采集 → 筛选 → 标注 → 质检 → 入库

逆向数据流程：问题发现 → 数据回捞 → 关键帧标注 → 入库

3.2 标注工艺

不同感知要素采用差异化的标注工艺：

OD（目标检测）：分割点云标注
LD（车道线）：拼接点云标注
TFL（信号灯）：2D/4D 联合标注
TSR（标牌）：2D/4D 联合标注
场景标签：人工 TAG

标注产线规模达 150+ 人，配套建立了完整的标注规则文档体系。

3.3 场景要素池

我们系统性地构建了三层场景要素池：

自然环境

时间、天气、光照、能见度、道路等级、道路类型、路段形态、路况、路面情况

87 个

静态感知

交通标志、车道线、地面标识、道路边界、信号灯、施工设施

76 个

动态感知

交通参与者、动态行为

45 个

要素池	一级类别	细分类数量

三大要素池合计 208 个细分场景类别，用于评测集的场景分布管理和弱势场景挖掘。

3.4 数据规模

行车

OD 精标

5.5 万

行车

LD 精标

5.1 万

行车

TFL 精标

1.6 万

行车

同源数据

1 万+

行车

逆向问题数据

1.7 万

泊车

OD/OM/PM 精标

约 6,300

泊车

逆向问题数据

1,000

模块	数据类型	规模

四、评测流程设计

评测流程覆盖了算法研发的全生命周期，共设计了 7 大核心流程：

4.1 算法训练评测流程

支持算法正向研发迭代，确保算法优化与新增功能达到预期效果。

需求评审 → 数据挖掘 → 数据标注 → 算法训练 → 算法评测 → 提交合入 → 版本更新

4.2 问题修复验证流程

支持算法逆向问题修复验证，确保问题修复且无指标回退。

问题产生 → 分发 → 分析定位 → 算法修复 → 回归验证 → 合入 → 版本更新

4.3 算法合入验证流程

构建统一的算法合入质量门禁，打通上下游。

Build 验证 → MR 验证 → 专项路测 → Daily 验证（MIL/SIL/PIL/HIL/VIL）→ 路测验证

4.4 硬件变更验证流程

支持硬件选型、底软变更的算法效果验证。

变更需求 → 场景设计 → 数据采集 → 标注入库 → 对比评测 → 输出报告

4.5 数据算法评测流程

支持预标注模型与世界模型的迭代质量保障。

模型更新 → 结果输出 → 结果评测 → 模型发版 → 数据交付

4.6 数据验证流程

支持世界模型重建与生成数据的质量验证。

数据标注 → 云端迁移 → 重建/生成 → 评测验证 → 数据交付

4.7 数据驱动迭代流程（DataPilot）

通过指标与问题挖掘模型弱势场景，生成训练数据需求，数据驱动模型正向迭代。

数据挖掘 → 数据生产 → 云端预训练 → 效果评测 → 数据准出 → 车端训练 → 车端评测 → 实车测试 → 发版

五、评测报告体系

每次版本评测输出结构化报告，包含 5 个核心部分：

报告总结：整体结论与关键发现
正向指标对比：新旧版本核心指标横向对比
回退 Case 分析：指标回退的具体 Case 深入分析
回归指标对比：历史问题修复回归情况
回退问题分析：问题根因归类与改进建议

六、运营成果

Daily 拦截

通过 SIL 自动化 Daily 验证，实现了算法合入的质量门禁：

某年度 9 个月内拦截问题提交 244 个，有效率 93%
次年 5 个月内拦截 118 个，有效率提升至 100%

版本质量

从 SOP 到后续多个 RC 版本，感知质量稳步提升，无明显回退
出现一次感知回退后排查为研发分支管理问题，推动建立了统一的合入流程与发版阈值标准

研发支持

近 3 个月累计支持测试验证感知代码变更 567 个

七、体系规划：六维评测能力模型

我们提出了一个衡量评测水平的公式：

评测水平 = 数据建设规模 × 数据闭环效率 × 评测自动化水平 × 评测智能化水平 × 算法认知水平 × 质量认证能力

围绕这六个维度，分别制定了建设目标：

7.1 数据建设规模

接入虚幻引擎（UE），支持快速构建虚拟测试场景
打通世界模型数据链路，支持重建/编辑/生成指定场景
建设虚拟与生成数据集，覆盖行泊车困难场景
建设评测数据标签化管理体系与评测集迭代机制
目标：正向同源数据 6 万、逆向问题数据 6 万、虚拟生成数据 1 万

7.2 数据闭环效率

建设评测数据管理平台，统一管理需求/送标/质检/入库全流程
建设采集与筛选数据质检工具，提高评测数据有效性
优化 issue-to-case 标注工艺，逐步实现全自动化标注
建立 Trigger 数据运营机制，提高问题发现及时性

7.3 评测自动化水平

建设基于云端的 Python MIL/SIL 评测流程
开发评测 Diff 引擎：自动输出差异帧、差异目标
自动生成可视化对比文件（真值 vs 预测值 / 新旧版本）
自动聚类问题场景与问题表现
建设报告生成服务与指标看板
打通车端数据回灌流程，支持一致性验证

7.4 评测智能化水平

建设问题挖掘能力：自动分析片段是否包含算法问题
建设问题诊断能力：自动分析问题根因
建设场景理解能力：自动检测目标要素与行驶场景
建设场景分类能力：基于大模型进行标签生成与场景挖掘
打通云端与车端评测链路

7.5 算法认知水平

学习并参与算法问题定位，评测结果直接给出初步定位结论
开源模型复现与开源数据集对标，保持算法领先性
设计灰白盒评测方案，提高评测验证有效性

7.6 质量认证能力

建立原子化指标体系：模型指标、功能指标、主动安全、驾驶体验、法规场景
打通数据/版本/指标/问题链路，实现过程质量可追溯
建立统一指标看板，全方位呈现各版本智驾能力表现

八、总结与思考

自动驾驶算法评测是一项系统工程，其核心挑战在于：

评测对象复杂：从感知、定位、地图到规控，模块众多且相互耦合
数据建设成本高：精标数据依赖大规模标注产线，单条成本从几元到数百元不等
场景长尾化：208 个细分场景类别仍难以穷尽真实世界的复杂性
效率与质量的平衡：每日数百个评测任务需要在速度与精度间找到最优解

我们的实践表明，一套好的评测体系需要具备以下特征：

体系化：从指标设计到数据建设到流程管理，形成闭环
自动化：最大程度减少人工介入，提升效率和一致性
智能化：借助大模型能力，突破传统规则的局限
可度量：用数据说话，让评测结果成为决策依据

希望这些实践经验能为同行提供参考。自动驾驶的评测之路，道阻且长，但行则将至。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

博客园 - 周希

引言

一、评测团队定位

二、评测业务范围

2.1 算法覆盖

2.2 评测指标体系

三、评测数据建设

3.1 数据来源

3.2 标注工艺

3.3 场景要素池

3.4 数据规模

四、评测流程设计

4.1 算法训练评测流程

4.2 问题修复验证流程

4.3 算法合入验证流程

4.4 硬件变更验证流程

4.5 数据算法评测流程

4.6 数据验证流程

4.7 数据驱动迭代流程（DataPilot）

五、评测报告体系

六、运营成果

Daily 拦截

版本质量

研发支持

七、体系规划：六维评测能力模型

7.1 数据建设规模

7.2 数据闭环效率

7.3 评测自动化水平

7.4 评测智能化水平

7.5 算法认知水平

7.6 质量认证能力

八、总结与思考