无人驾驶汽车发展速度之快,主要依靠汽车智能化进程的加快。其不仅具有传统的转向、加减速等功能,更包括环境感知、高精度定位、决策规划以及运动控制等功能,能够依靠这些先进的技术来达到人类驾驶行为的要求。
无人驾驶汽车通过摄像头或雷达等各类传感器对真实环境进行感知与建模,形成环境模型与局部地图,GPS和惯性导航系统再根据环境模型和局部地图进行定位与建图,形成全局地图,然后输入至行为决策与路径规划模块,形成局部路径传至运动控制模块,从而使车辆的运动状态发生改变,依次循环。
无人驾驶汽车行为决策系统指无人车通过传感器感知得到交通环境信息,考虑周边环境、动静态障碍物、车辆汇入以及让行规则等,与无人驾驶库中的经验知识等进行匹配,进而选择适合当前交通环境之下的驾驶行为。
行为决策的目标主要是保证车辆可以像人类一样产生安全的驾驶行为,满足车辆安全性能、遵守交通法规等原则。
以无人车智能认知能力进行分级,可以分为车辆控制行为、基本的行车行为等。如下图所示:
二、无人车行为决策方法
无人车是如何进行行为决策的呢?典型的无人驾驶汽车的行为决策方法主要是基于规则的行为决策方法和基于强化学习的行为决策方法。
(1) 基于规则的行为决策
无人驾驶汽车基于规则的行为决策方法是最常用的。其主要是将无人车的运动行为进行划分,根据当前任务路线、交通环境、交通法规以及驾驶规则知识库等建立行为规则库,对不同的环境状态进行行为决策逻辑推理,对驾驶员的行为进行输出,同时接受运动规划层对当前执行情况的反馈情况进行实时动态调整
在基于规则的行为决策中,有限状态机法是最经典也是最具有代表性的方法,其具有实用性强、可靠性高和逻辑推理清晰等特点。有限状态机是一种离散的数学模型,用来研究有限个状态以及状态之间的转移。其主要包括有限状态集合、输入集合和状态转移规则集合三部分。状态、转移、事件和动作是有限状态机的四大要素
以基于规则的超车行为决策为例,主要分为顶层状态机和超车顶层状态下的子状态机。示意图如下:
在超车顶层状态机下设置了超车子状态机,对超车过程中不同驾驶阶段下的转换进行逻辑建模。超车行为决策与人类驾驶行为类似,在超车子状态机下分别包括左换道准备、左换道、并行超越等。左换道准备为超车子状态机的默认初始状态,在左右换向状态下,无人车将开启相应的转向信号灯,产生一定的转向偏移,以此来提示后方车辆。同时,无人车会根据其左后或右后车辆是否避让的状态来决定是否进行下一步的超车计划。并行超越主要用于车辆进行超车的阶段,指导车辆在超车过程中的速度变化、方向盘角度变化等,并指导车辆在超车完成后及时返回原来的车道,减少在整个超车过程中的安全风险。
(2) 基于强化学习的行为决策
随着人工智能技术的飞速发展,各种学习算法越来越多的应用于无人驾驶车辆的行为决策方面,极大的推动了无人驾驶汽车的落地发展。基于强化学习算法的行为决策方法主要是利用各种学习算法来进行决策,利用无人车配备的各种传感器,来感知周边的环境信息,传递给强化学习决策系统,此时强化学习决策系统的作用就相当于人脑,来对各类信息进行分析和处理,并结合经验来对无人驾驶汽车做出行为决策。
基于强化学习的行为决策方法近年来发展迅速,主要有马尔科夫决策、Q学习算法、神经网络Q学习算法等。这些行为决策方法可以通过大量的数据更容易覆盖全部的工况以及不同的场景。如自动驾驶汽车公司Waymo 就通过模拟驾驶及道路测试来获取了大量的数据对其基于学习算法的行为决策系统进行训练,使得该系统对物体的检测性能得到了极大地提高,还可以对障碍物进行语义理解等。
现阶段无人车行为决策的方法主要是以上两种,即基于规则的行为决策和基于强化学习的行为决策。对于基于规则的行为决策来说,其具有易于搭建和调整,实时性好,应用简单等优点,但是由于其难以适应所有情况,需要进行针对性调整,其行为规则库易重叠而失效,有限状态机难以覆盖车辆可能遇到的所有工况而导致决策错误。对于基于强化学习的行为决策而言,由于其强大的数据训练集,可以减小环境的不确定性因素带来的影响,但是它需要大量的数据来进行预处理,计算量大,实时性差。
随着科学技术的突飞猛进,以及近些年人工智能、强化学习、机器学习等的快速发展,结合上诉两种方法的优势,顶层采用基于规则的决策,底层采用强化学习等算法,可以发挥学习算法的优势,增强场景的遍历深度,两种方法优势互补,必将成为未来无人车行为决策的发展方向。
获取更多评论