自动驾驶车辆智能性评价研究综述

文章来源：同济大学学报发布时间：2020-03-18

分享到

围绕自动驾驶车辆智能性评价进行了深入的分析和总结．首先，对自动驾驶车辆智能性定义进行了综述和对比；之后，系统梳理了现阶段自动驾驶车辆智能性评价选取的评价指标；然后，按定性评价和定量评价两种方式对评价方法进行了整理和概述，并深入分析了不同评价方法的应用特点和局限；最后，就自动驾驶车辆智能性评价的进一步发展提出了若干研究方向的展望。

在自动驾驶技术的开发中需要进行大量的测试、评价和验证，尤其需要突出自动驾驶车辆作为智能系统的任务决策能力和复杂环境的认知与理解等能力．研究自动驾驶车辆的智能性评价方法有利于促进汽车工业设计、生产和销售的良性循环，剌激汽车生产商提高汽车智能化水平，并为消费者购车时提供参考．然而目前对于如何评价自动驾驶车辆的智能性还没有统一的标准法规，各研发单位及测试机构从不同角度、不同应用范围给出了自己的评价指标和评价方法．本文围绕自动驾驶车辆智能性评价进行了深入的分析和总结。

首先，对自动驾驶车辆智能性定义进行了综述和对比；之后，系统梳理了现阶段自动驾驶车辆智能性评价选取的评价指标；然后，按定性评价和定量评价两种方式对评价方法进行了整理和概述，并分析了不同评价方法的应用特点；最后，就自动驾驶车辆智能性评价的进一步发展提出了若干研究方向的展望。

1 自动驾驶车辆及智能性定义

美国汽车工程师学会（SAE）将自动驾驶技术分为LO～LS 六个级别，本文中自动驾驶车辆是指按照SAE 定义L4 级及以上的车辆．即按照功能设计，车辆在限定条件下，应能完成所有动态驾驶任务，如果出现需要人类介入的情况，则认为自动驾驶系统未满足功能需求。

自动驾驶汽车智能性一般可看作是人工智能的一个专门领域．人工智能是指机器能够完成需要人类智能才能完成的任务，或者机器在同样的任务中表现出和人类似的、甚至是超过人类的智能，以此引申出自动驾驶车辆的智能性是指车辆具备和人类相当、甚至超过人类的驾驶技能。基于这种思想，Kalik 等四将图灵测试应用于自动驾驶车辆智能评估中，根据人类观察者能否将自动驾驶车辆与人类驾驶车辆区分开，来对自动驾驶车辆的智能性做出评价。

本节上述智能性定义是从自动驾驶车辆的行为表现出发，也有部分学者从自动驾驶汽车应当具备的能力出发确定智能性定义。Li 等认为自动驾驶汽车的智能性是指自动驾驶汽车在环境中感知信息、决策规划并采取自适应行为的能力。Huang 等认为智能性是无人系统为了能够完成所分配的目标所具有的综合感知、认知、分析、沟通、计划、决策和执行等能力。Beernaert 等强调了自动(Automatic）和智能（ Intelligence）的区别，自动意味着一个系统只能按预先编好的程序运行，智能意味着一个系统能够处理人工未预先定义的异常。闰岩等认为智能性意味着还具有自主运行能力，认为智能性应能够体现系统的自我管理能力，最小化人工干预，并具有动态自处理和任务执行能力。

综上所述，自动驾驶车辆的智能性意味着在行为表现上与人类相似（甚至超越人类）；在能力上，具有感知、决策、规划能力，自主运行能力，能够处理人工未预先定义的异常．除智能性外，也有部分学者提出了自主性的概念，由于自主性和智能性之间没有清晰的界限，因此本文中不做区分，统称为智能性。

2 自动驾驶车辆智能性评价指标

选取评价指标是自动驾驶车辆智能性评价的前提和基础．智能性评价过程中首先需要明确评价目的和评价对象，在此基础上再选择具体的评价指标，以下从这两方面展开分析。

2. 1 明确评价目的和评价对象

2. 1. 1 评价目的

(1 ）纵向比较：纵向比较是指在技术开发验证阶段，比较自动驾驶车辆智能性的某个方面相较于自身上一个版本的改进情况，不需要全面综合地对比不同自动驾驶车辆的智能性差异，侧重于智能性的某个方面．例如Koon 等问为研发的元人驾驶车辆设计了专用测试赛道，最后根据无人驾驶车辆通过赛道的时间和测试过程中偏离赛道的次数评价智能性。

(2）横向比较：横向比较要求全面综合地比较多辆自动驾驶车辆，单一方面无法完整反映智能性水平，评价指标相比于纵向比较覆盖面更广．典型的是Huang 等因提出的ALFUS C元人系统自主级别框架， autonomy levels for unmannedsystems ）评测框架，如图1 所示。该框架对被测系统的智能水平进行了等级划分，主要考虑任务完成过程中的任务复杂度、环境复杂度和人工独立程度等因素，将智能水平划分为10 级。

2. 1. 2 评价对象

(1) 面向无人乘坐车辆：无人乘坐车辆的使用目的是执行特殊任务，而非运载乘员．面向元人乘坐车辆的智能性评价将车辆视为自主行驶的智能机器人，评价独立完成任务的能力和完成质量，不考虑用户体验相关指标．如美国国防高级研究计划局（DARPA）在2004 、2005 年举行了两届沙漠越野比赛DARPA GrandChallenge，对未完成任务的车辆以行驶距离排序，对完成任务的车辆以完成任务排序. 2007 年举办的DARPA Urban Challenge［山在城市环境中进行，最终综合考虑车辆在行驶过程中的任务完成时间、任务完成质量（违反交通规则或表现出危险行为扣除相应分数）进行评价．

(2）面向有人乘坐车辆：有人乘坐车辆以运载乘员为目的，要求自动驾驶车辆不仅能够自主行驶，还需要能够提供较好的用户体验，评价指标中包含用户体验相关指标．例如Adaptive 项目通过问卷调查收集试乘人员对自动驾驶车辆的评价，评价指标包括信任程度、有用程度、可接受程度、是否愿意购买等。

2.2 选择评价指标

评价指标包括整车级指标和系统级指标两大类，以下对这两种类别的典型评价指标进行了整理和分析。

2. 2. 1 整车级指标

整车级指标是自动驾驶车辆在完成任务过程中的各种行为表现，评价时将自动驾驶车辆视为一个完整的系统，不需要了解系统内部结构如何，只需按系统的输入和输出信息对整个系统进行评价。

对于整车级指标，可以选择客观指标（在测试中实际测量获得指标属性值）或者主观指标（人类评价确定指标属性值），如表1 、表2 所示．选择不同类型的指标将影响指标体系颗粒程度，主观指标的最细粒度可以是任务级别，客观指标需要进一步将任务细化到可测量的指标。例如同样是“通过路口”指标，Meng 等分解为｛停车精度、起步时间、平均速度、制动减速度｝等客观子指标，对于每一个子指标根据测试数据来确定指标属性值；孙扬则直接利用专家调查法评价自动驾驶车辆在通过路口过程中体现出的智能性水平。

主观指标和客观指标各有优劣，客观指标属性值是客观测量值，不受人为因素影响，但由于智能性本身具有模糊性，在不同场景下指标的理想值不同（如在干燥路面和湿滑路面，跟车距离的理想值不同），客观测量值和智能性水平之间并非线性对应，因此仅根据实际测量属性值不足以判断智能性优劣；主观指标虽然较好地体现了智能性的模糊性特点，但受人为因素干扰较大。

2.2.2 系统级指标

系统级指标是指将自动驾驶车辆的智能性分拆到子系统或者子能力等指标，对子系统或子能力分别进行测试评价，进而汇总成为整车的智能性评价结果。典型的系统级指标如表3 所示。

整车级指标虽然能反映整车级别的智能性优劣，但对自动驾驶车辆环境感知、决策规划和控制等子系统缺乏直观的反映，并未指出具体哪项系统的不足和以后需改进的方向；另外自动驾驶车辆的智能行为由环境一任务一车辆三者交互激发出1 ，不同环境和任务对车辆智能行为影响不同，自动驾驶车辆在特定驾驶任务和环境中的表现能否反映更广泛条件下的智能性水平有待进一步研究。

系统级指标虽然能直观反映各子系统或子能力的优劣，但是自动驾驶车辆是一个复杂的智能体，子系统或子能力之间并没有绝对的相对重要性关系，如何将各子系统或子能力评价结果综合成为整车的智能性水平仍具有很大挑战性。

3 自动驾驶车辆智能性评价方法

自动驾驶车辆智能性评价指标确定后，需要选择合适的评价方法，以确定评价对象在各评价指标上的评价结果，包括定量评价方法和定性评价方法。

3. 1 定量评价方法

定量评价方法采用数学的方法，收集和处理数据资料，最终以精确的数值概括全部的评价信息，包括独立指标评价方法和联合指标评价方法。

独立指标评价方法不区分不同指标之间的重要性差异，在获得评价对象在各个指标的评价结果后并没有关联在一起形成总体评价。例如Wei 等根据自动驾驶车辆到达设定终点的平均时间、平均加速度、车道变换次数、与前车距离小于10m 的总时间等数据进行智能性评估．独立指标评价方法仅适用于独立地对比不同评价对象在各评价指标上的表现差异，由于不能得出整体的评价结果，便不能在整体上判断各评价对象的智能性优劣，因此应用较少。

应用广泛的是联合指标评价方法，该方法用多个评价指标分别说明被评价对象的不同方面，最终对各评价指标结果综合，用一个总指标来说明被评价对象的综合水平．该方法在建立指标体系后还需要进一步确定指标权重并选择集结模型，以下对不同指标权重确定方法和集结模型的应用特点和局限进行了分析。

3. 1. 1 确定指标权重

指标权重确定方法可分为主观赋权法和客观赋权法。主观赋权法由专家根据经验进行主观判断得到权重，应用较多的是层次分析法。由专家通过两两比较判断的方式确定每两个指标之间的相对重要性，进而建立判断矩阵K.K 中的每一个元素r_ij代表指标i 相对于指标j 的相对重要性程度，之后求解判断矩阵的特征向量作为各评价指标的权重系数。除层次分析法外，也有部分学者采用等权法，即默认各评价指标的权重相同。

客观赋权法通过对实际获得的指标属性值进行计算分析，进而得出权重系数。应用较多的是熵权法。各被测车辆在某个指标的属性值差异程度越大，提供的信息量便越多，该指标的权重也越大。客观评价法利用比较完善的数学模型和方法，不受人为因素影响，适用于评价指标均为客观指标的情况。但客观赋权方法获得的指标权重依赖于测试结果；且当评价对象不同时指标权重随之改变，即指标权重不具有普适性。

有部分学者采用组合赋权法，即分别在主观赋权法和客观赋权法内部找出最合理的权重系数，再根据具体情况确定主、客观赋权法权重系数所占的比例，最后求出综合评价权重系数．该方法一定程度上既反映了决策者的主观信息，又可以利用原始数据，使权重系数具有客观性，但结果的准确性有赖于对主观赋权和客观赋权权重系数所占比例的确定。

指标权重的基本规律是指标体现的任务复杂程度越高，权重越大．任务复杂度越高的指标越能反映被测对象的技术水平，相对重要性较高，且通常不同被测对象在该指标的差异性更大．因此无论采用主观或客观赋权法，权重均较大。如文献采用客观赋权法，指标“停车精度”权重为0. 113 ，指标“车速保持”权重仅为0. 092 ；文献口5］指采用主观赋权法，指标“U型转弯”权重为0.47 ，指标“直道保持”权重仅为0. 05。

3. 1. 2 选择集结模型

联合指标评价方法需要选择集结模型将多个评价指标属性值“合成”为一个整体的综合评价值，集结模型包括灰色关联度法、逼近理想解排序法( TOPSIS, technique for order preference by similarity to an ideal solution）方法、模糊综合评价法、反向传播（ BP, back propagation）神经网络法和加权算术平均法。

灰色关联度法通过比较各自动驾驶车辆与理想方案（各评价指标的最优属性值构成的序列）之间的关联度确定各指标得分，之后用评价指标权重向量对各指标结果进行综合，获得综合评价结果。关联度越大，说明该车辆与最优方案的态势越一致，智能性越好．但是当其中某个评价对象改变时，理想方案很可能随之变化，从而导致所有评价对象的评价结果均发生变化，因而仅适用于对特定几个评价对象进行排序，即评价结果不具有普适性。

TOPS IS 方法阿根据各车辆与正理想解的接近程度以及与负理想解的远离程度进行智能性相对优劣的评价，其中正、负理想解分别是所有车辆中各评价指标的最优、最劣属性值构成的序列，该方法获得的评价结果同样不具有普适性。模糊综合评价法首先确定评价指标集合和评价等级集合，之后确定每一个评价指标对各评价等级的隶属度，便可以确定一个模糊评价矩阵R ，用评价指标权重向量对模糊评价矩阵R 进行合成运算，从而得到模糊综合评价结果向量。模糊综合评价法适用于评价指标为多层次指标体系且包含主观指标的情况。

BP 神经网络法将客观指标的属性值进作为BP 神经网络模型的输入，将专家评价结果作为网络模型的输出，之后用足够多的样本训练这个模型，训练好的神经网络能够模拟专家进行评价。该方法不能提供显式的解析表达式，这使得元法得知造成两个评价对象评价结果差异的确切原因，适用于被评对象规模较大时进行自动评价。

加权算术平均法利用加权的算术平均值来综合各指标的评价信息，如Zhao 等以自动驾驶车辆完成任务的成本函数值为指标属性值，以通过熵权法获得的权值为指标权重，应用加权平均算法获得综合评价结果，但是该方法单项指标的极值会影响评价结果的准确性。

各集结模型的特点归纳如表4 所示，在实际应用过程中，需要根据评价时具备的条件以及对评价结果的要求选择合适的集结模型。

3.2 定性评价方法

定性评价方法从自动驾驶车辆智能性本质出发，利用专家的知识、经验和判断，通过观察被评价对象的表现或状态，以归纳分析等非量化手段对自动驾驶车辆智能性进行评价．最终的评价结果是宏观的智能性水平划分，而非精确的数值．如王越超等问提出的蛛网模型从一个原点往外辐射出几条轴，每条轴代表一个决定智能性的关键技术，在每个轴上根据技术成熟度分为若干个等级，最后把每条轴上的对应点连接起来构成蛛网的纬线，以此评价智能性，如图2 所示。

3.3 定性评价和定量评价对比

3. 3. 1 评价结果

定性评价的结果是宏观的智能性水平划分，侧重于从智能性的本质上对自动驾驶车辆进行评价，相比于定量评价方法，其结果更加稳定可靠．但只有当自动驾驶车辆的智能性水平存在显著差异时才能区分出性能优劣，针对自动驾驶车辆产品无法做出智能性水平的详细定位和精确评价，针对技术研发也不能提供研发方向的精确性引导。

定量评价以精确数值概括全部的评价信息，适用于需要对不同自动驾驶车辆的智能性优劣做精确分析的场合．评价结果直观明确，利于工程实践和自动驾驶车辆性能逐步提高．

3.3.2 评价过程

从评价过程来看，定性评价方法以归纳分析等非量化于段对自动驾驶车辆智能性进行评价，对测试数据的要求不高，数学工具简单．定量评价中独立指标评价方法同样数学工具简单，但对测试数据有较高要求。联合指标评价方法首先需要区别不同评价指标的重要性差异，还需要将评价对象在各指标的评价结果综合成一个总体评价结果，因此需要用到复杂的数学工具，操作也更为复杂。定性评价方法和定量评价方法应用特点汇总如表5 所示。