高阶自动驾驶系统决策规划算法的问题与对策

高靖宇王明明 AI汽车制造业 2026-07-03

决策规划算法关系到车辆行为的智能性，是自动驾驶的核心算法模块。传统决策规划算法采用模块式架构，基于规则代码实现，难以覆盖复杂城市工况，且规则设计复杂、维护成本高。数据驱动型算法利用深度神经网络取代规则代码，应用于决策规划算法，端到端架构的集成性和实时性高，是提升自动驾驶泛化性和安全性的一条潜在路径。在算法评测方面，开环评测面临数据集场景分布单一、评价标准不够全面等行业痛点，而综合安全性、舒适性、通畅性、合规性和经济性的闭环评测才是更加有效的评测方式。

0 引言

自动驾驶技术可提升驾驶安全水平，减少人为事故，缓解交通拥堵，降低能源消耗与排放，自问世以来就备受关注，已成为全球工业强国竞争的战略高地。

2021年8月20日，国标GB/T40429-2021《汽车驾驶自动化分级》批准发布，该标准根据汽车驾驶自动化功能将自动驾驶系统分为6个等级：L0级－应急辅助、L1级－部分驾驶辅助、L2级－组合驾驶辅助、L3级－有条件自动驾驶、L4级－高度自动驾驶和L5级－完全自动驾驶。

通常将L0～L2级系统称为“低阶自动驾驶系统”，当前已进入量产普及阶段，典型产品如特斯拉AutoPilot、小鹏全场景高阶智能驾驶辅助系统（XNavigation Guided Pilot,XNGP）、华为高阶智能驾驶系统（Automated Driving System,ADS）及广汽智驾互联生态系统（Auto drive Intelligent Go,ADiGO PILOT）等，已实现高速、城市场景的辅助驾驶功能。L3级及以上系统被称为“高阶自动驾驶系统”。2023年11月，工信部、公安部、住建部、交通部联合发布《关于开展智能网联汽车准入和上路通行试点工作的通知》，开启L3准入试点工作。首批进入智能网联汽车准入和上路通行试点联合体的单位包括长安汽车、比亚迪、广汽和上汽等知名企业。对于L4级自动驾驶系统，美国Waymo、国内百度、小马智行等企业已开始小规模运营，但仍面临诸多高难度技术挑战，短期内难以进入量产落地阶段。

决策规划算法是自动驾驶系统的核心算法模块，关系到车辆行为的智能性，是高阶自动驾驶系统落地的关键。本文将介绍传统决策规划算法遇到的问题和挑战，结合国内外发展趋势，给出决策规划算法在算法架构和实现方案方面的开发对策；同时，对决策规划算法的评价给出开环和闭环两种方案。

1 传统决策规划算法

传统决策规划算法与基于数据驱动的决策规划算法相对，其特点是算法架构上采用模块式架构，技术实现上采用基于规则的代码实现。模块化架构有利于团队分工合作，规则代码可解释性强、易于调试，在低阶自动驾驶系统工程开发中广泛应用。

1.1 模块式自动驾驶算法架构

模块式自动驾驶算法架构通常包含感知、地图、定位、预测、导航、决策规划和控制等模块，如图1所示。其中，感知模块负责检测环境信息，包括所有动态目标（车辆、行人等）和静态要素（车道线、道路边界、红绿灯等）。地图模块即高精度地图引擎。定位模块根据感知与地图匹配结果，给出自车的全局位置与姿态。预测模块根据历史感知信息预测自车以外的交通参与者的未来轨迹。导航信息由导航地图引擎提供道路级导航信息。

图1 模块式算法架构

决策也称为行为规划，通常生成粗略的轨迹，并给出与自车动作有潜在交互的物体标签（例如避让或跟随）。运动规划模块负责生成平滑且可行的轨迹路径点。控制模块接收运动规划模块输出的轨迹路径点，生成高频率的转向、加速和制动等控制指令，由车辆执行器执行。

1.2 基于规则的决策规划算法

传统算法依赖专家经验对驾驶行为进行决策。决策模块结合环境感知和导航信息，输出驾驶意图，通常分为跟随、变道、红绿灯制动/停车/起步等有限状态机。对于高速公路、交通流稀疏的城市工况，仅需少量行为状态即可覆盖绝大部分行车工况。决策模块根据专家规则进行状态转移，同时结合高精度地图或实时建图得到的所在车道及相邻车道的参考线信息，生成决策粗略轨迹传递给运动规划模块。

运动规划算法源于机器人领域，逐渐发展出适用于自动驾驶的各种算法，可以归纳为搜索、曲线插值、优化三类方法。

(1) 基于采样搜索的算法：Dijkstra、快速扩展随机树、A^*、hybirdA^*和Lattice等。

(2) 基于曲线插值的算法：里兹-谢普（Reeds Shepp,RS）曲线、Dubins曲线、多项式曲线、贝塞尔曲线和样条曲线等。

(3) 基于最优化的算法：如百度Apollo EM Planner采用的动态规划与二次规划的组合优化算法。

早期的决策规划算法为了降低计算复杂度，将速度与路径规划分离处理，称为“时空分离算法”，如百度Apollo EM Planner。如表1所示，时空分离算法适用于高速公路等简单交通流以及动态变化不大的场景。Frenet坐标系是时空分离算法常用的坐标表示方式，它基于高精度地图生成的参考线（通常是车道中心线）来定义，将车辆的二维运动问题解耦成两个一维运动问题，简化了决策规划的计算复杂性。

在窄路会车、匝道合流等场景，需要横纵向联合控制，时空分离算法难以应对。时空联合规划通过在三维时空范围内直接求解可行驶轨迹，能够更好地应对复杂动态场景，提升规划结果的灵活性和合理性。

1.3 复杂场景的难点

相对于高速公路，城市场景难度显著增加。道路场景复杂：包含路口、掉头、环岛和多层立交等复杂道路拓扑，存在车道线缺失、狭窄道路占用等多样场景。交通参与者密集：存在大量行人、两轮车，还有清扫车、快递车等多样异形车辆。交通参与者的行为难以预测：在拥堵场景中，车辆、行人和骑行者竞争道路资源，行为相互博弈，意图高度随机。

高动态交通流场景需要车辆快速响应，而车载计算资源相对有限，限制了决策规划的算法复杂度。

1.4 传统决策规划算法局限性

面对复杂交通流场景，传统决策规划算法局限性凸显。

（1）系统时延大：模块化架构感知、预测、决策规划、控制模块顺序执行，整体耗时在400ms以上，无法适应密集高动态交通流。

（2）模块有损传输：模块间接口基于经验规则，导致信息在传递过程中出现损失。例如，感知模块结果通过有限种类语义的点、线、多边形对现实世界进行抽象，成为系统天花板。

（3）全局优化能力不足：各模块独立开发，只优化其自身性能，难于实现整体最佳效果。

（4）开发成本高、维护复杂：自动驾驶存在大量长尾场景，需要叠加大量人工规则应对，开发成本高、系统维护复杂，限制了算法迭代效率。

2 基于数据驱动的决策规划算法

近年来自动驾驶技术突飞猛进，俯视视角（Bird's Eye View,BEV）+Transformer网络架构通过整合摄像头、激光雷达等多模态数据，提供全局视角，消除遮挡和重叠问题，提高了目标检测、跟踪精度。进一步，Transformer的注意力机制增强了智能驾驶的泛化能力，在预测、决策规划算法的应用同样带来了显著的性能提升，推动自动驾驶算法或从规则驱动向数据驱动转变。

2.1 端到端式算法架构

与模块化架构相对，端到端架构用神经网络替代感知、预测、决策规划甚至控制模块，实现了高集成度和低延迟，逐渐成为行业研究热点，为自动驾驶系统发展提供了一条极具潜力的技术路径。

端到端架构主要有模块化设计和一体化设计两种主流技术路线。一体化架构的系统输入为传感器数据，输出为参考轨迹或控制指令，网络集中度更高，进行数据驱动的一体化训练。其优点是算法设计难度小，同时最大限度地减少了模块之间的信息传递损失，性能理论上限较高。缺点是对训练数据分布和数量需求更高，且系统无中间变量输出，可解释性差。

一体化架构出现较早，1988年，卡内基梅隆大学开发了神经网络自主陆地车辆网络（Autonomous LandVehicle in a Neural Network,ALVINN），输入来自摄像头和激光测距仪，通过3层全连接神经网络计算，输出方向盘转角用于车辆横向控制，开创了端到端系统的先河。2016年4月，英伟达发布了端到端系统DAVE-2，该系统通过一个卷积神经网络处理车辆前摄像头图像，直接输出转向角度进行车道保持，训练过程中，模型通过模拟驾驶数据进行学习。

图2 算法架构演进

受限于早期神经网络的规模以及系统可解释性差，一体化架构并未落地应用。在近期工程实践中，端到端更多采用模块化设计，逐步演进。如图2所示，V0阶段，BEV+Transformer感知网络完成多传感器感知融合，决策规划模块仍采用rule-based代码实现。V1阶段开始使用神经网络替代决策规划模块，感知通过人工定义的接口描述目标、车道线、红绿灯等环境信息。代表工作有清华大学提出的强化学习型集成式决控算法。V2阶段采用具有“物理意义”的特征向量作为连接进行隐式特征传递，前后模块先独立设计并进行预训练，再级联到一起进行微调训练。该架构具备一定的可解释性，模块具有物理意义，便于查错修改。代表作有上海AILab于2023年提出的自监督模型UniAD、华中科技大学与地平线机器人在2023年发布的向量化场景表征模型。随着以ChatGPT为代表的生成式人工智能的发展，视觉语言模型（Vision Language Model,VLM）开始应用于自动驾驶系统。2024年，理想汽车发布“端到端+VLM”的双系统架构，VLM模型具备复杂场景的理解能力、导航地图的理解能力以及交通规则的理解能力，输出低频驾驶轨迹至端到端模块。

2.2 监督学习与强化学习

基于数据驱动的决策规划算法按照神经网络技术方案可以划分为监督学习、强化学习两种类型。

监督学习本质是对人类驾驶数据的模仿。该方案的落地依赖两大前提：数据涵盖所有驾驶场景和情形，数据均需来自于优秀驾驶员。受限于长尾样本采集难、驾驶数据质量辨识难两大挑战，监督学习框架下，驾驶模型智能性无法突破数据或人类上限。ALVINN、DAVE-2、UniAD和VAD均为监督学习类算法。

强化学习是一种自主学习、试错成长的学习型决策方法，通过让自动驾驶系统在与环境的交互中学习最优的决策和规划策略。强化学习方法不依赖标签数据进行最优策略求解，能实现对优秀和劣质驾驶数据的自动评估，极大降低了数据闭环的实现难度，但仍然存在训练环境真实性难以保障，训练迭代时间长等缺陷。清华大学发布的IDC、分布软演员评论家算法，英国Wayve公司使用深度强化学习算法，均为强化学习算法应用的代表。

3 决策规划算法性能评价

决策规划模块输出轨迹序列，性能评价可分为开环评价与闭环评价两种方式。开环评价采用数据集验证，闭环评价需要结合上游的感知、预测、定位等模块输入与下游的控制模块输出，采用仿真或者实车验证方式。决策规划算法性能评价关系到软件成熟度、用户体验评价，是自动驾驶系统开发的必要环节。

3.1 开环评价

开环评价基于自然驾驶数据集中的人类驾驶员驾驶轨迹行为作为真值，将决策规划模块输出轨迹与之比较。常用数据集有NuScenes、Argoverse2等，基于驾驶场景提供包含摄像头、激光点云的感知数据、车辆运动轨迹数据以及高精度地图等多模态数据，以测试和评估决策规划算法性能。

基于数据开环评价最主要指标有L2误差、碰撞率。L2误差定义为决策规划模块输出轨迹与自然驾驶人工轨迹之间的欧氏距离。碰撞率为自车和其他物体发生碰撞的概率。

开环评价存在一定局限性，NuScenes数据集中73.9%的NuScenes数据涉及直线行驶，场景过于简单。L2误差、碰撞率评价对于一些高风险轨迹，例如偏离道路行驶可能不会受到严重惩罚。仅利用自车状态信息可以轻松地被利用作为规划模型训练，同样可以获得较高评价。

3.2 闭环评价

闭环评价包含仿真与实车两种评价方式。使用仿真器评价决策规划算法有较长的历史。通常在指定地图环境中，仿真器给出完美感知输入、结合车辆动力学控制模型或者完美控制模型，对决策规划算法模块仿真。传统仿真测试方案，人为设定测试用例，并给人工判定条件。利用NuScenes、Argoverse2同样可以进行仿真，即仿真地图、交通参与者使用数据集数值作为初始状态。

对于闭环仿真，仿真环境的交通参与者行为建模和现实世界数据模拟仍然是具有挑战性的开放问题。实车评价在工程开发中仍不可或缺。对于决策规划算法，基于整体驾驶场景的性能评价至关重要，通常采用安全性、舒适性、通畅性、合规性和经济性指标评价。安全性评价评估自动驾驶汽车在行驶过程中的预期碰撞风险。自动驾驶舒适性与驾乘人员感受到的车辆运动冲击相关，可以简化采用横纵向两个维度的一阶、二阶加速度进行衡量。通畅性评价自动驾驶状态的道路通行效率，可以用环境平均车流进行比较评价。合规性评价交通违章行为，可通过统计自动驾驶状态下压实线、闯红灯和超速等违反交通法规行为的频次进行评价。经济性是指车辆行驶过程的能量消耗水平。

安全性评价是决策规划算法评价最核心的指标。当前自动驾驶系统无法应对所有驾驶场景，需要驾驶员在必要情况下进行接管。行业通常以MPD（Milesper Disengagement,单次脱离平均行驶里程/每接管一次可行驶英里数）指标为代表，定义为自动驾驶测试里程与测试期间发生的自动驾驶接管次数的比值，反映安全性能。文献表明，驾驶员状态（疲劳状态、非驾驶姿势）、交通环境（天气情况、交通流复杂度）都会影响接管绩效，人工接管作为安全性评价存在明显局限性。

安全性评价多采用与碰撞时距相关物理量表征，例如车间时距（Time Headway,THW）、碰撞时间（Time To Collision,TTC）等。此类方法实现简单，容易对齐主观评价。此类方法多用于检测一维纵向驾驶背景下的碰撞风险，在前向碰撞警告（Forward Collision Warning,FCW）、自动紧急制动（Autonomous Emergency Braking,AEB）系统开发中广泛使用。城市复杂工况驾驶涉及更多的横向动作，如变道、掉头和路口转弯等，需要将TTC扩展到二维场景。

使用人工势场概念进行安全性评价，如基于人车路协同的行车风险场、驾驶员风险场等，但该类模型参数多，对评价准确性难于定量评估。潜在碰撞损伤风险（Potential Damage Risk,PODAR）模型是另一种安全性评级方法，其核心是以将当前的运动状态计算未来时刻的预期碰撞损伤度，计算使用自车与环境参与者的速度、位置和航向角信息，容易进行算法标定，统一主客观评价标准。

3.3 开环评价与闭环评价对比分析

为更清晰呈现两种评价方式的差异与适配场景，现将开环评价与闭环评价的核心特征、优势、局限性及适用场景结合具体数据进行系统对比，如表2所示。

4 结语

自动驾驶是汽车技术发展的核心方向，其决策规划算法关乎车辆智能性，是实现高阶量产的关键。本文先介绍传统决策规划算法的架构及其在复杂场景下的挑战，再结合行业趋势，从算法架构、技术方案、评测方法三方面阐述数据驱动方法。架构上，端到端集成度高、延迟低但可解释性差，模块化无损端到端是可行路径。技术上，监督学习可实现拟人驾驶，但依赖数据分布与质量；强化学习利用实车与仿真数据，依赖度低，是另一可行路径。评测上，开环评价局限明显，闭环评价综合安全性、舒适性、通畅性、合规性、经济性等指标更准确，其中安全性需结合仿真与实车数据。

参考文献

[1] 全国汽车标准化技术委员会 . GB/T 40429-2021 汽车驾驶自动化分级 [S]. 北京 : 中国标准出版社 , 2021.

[2] Xin L, Kong Y T, Li S E, et al. Enable faster and smoother spatiotemporal trajectory planning for autonomous vehicles in const rained dynamic environment[J]. Automobile Engineering, 2021, 235(4): 1101-1112.

[3] Liu Z J, Tang H T, Amini A, et al. BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird'sEye View Representation[C]//IEEE International Conference on Robotics and Automation (ICRA), London, UK, 2023.

[4] Pome rleau D A. Alvinn: An autonomous land vehicle in a neural network[J]. Advances in neural information processing systems, 1988, 1.

[5] Guan Y，Ren Y G，Sun Q，et al. Integ rated decision and control: Toward interpretable and computationally efficient driving intelligence[J]. IEEE Transactions on Cybernetics, 2023, 53(2): 859- 873.

[6] Hu Y H，Yang J Z，Chen L，et al. Planningoriented Autonomous Driving[C]//IEEE/CVF Con fe rence on Compute r Vision and Patte rn Recognition (CVPR), Vancouver, Canada, 2023.

[7] Kendall A，Hawke J，Janz D，et al. Learning to Drive in a Day[C]//International Conference on Robotics and Automation (ICRA), Montreal, Canada, 2019.

内容来源：AI汽车制造业

责任编辑：龚淑娟

审　　核：李峥

高阶自动驾驶系统决策规划算法的问题与对策

评论

热点文章