人机共驾：自动驾驶的终局？

TopMove 2019-08-27

不可否认的是，特斯拉 Autopilot 让大家有机会一窥自动驾驶的未来，尽管它离真正意义上的「自动驾驶」还很远。毕竟软硬件的局限导致它最多只能实现 L2 级自动驾驶的能力，而这个阶段中「人」依然是主体，需要机器和人相互配合完成，所以这些关于 Autopilot 的争议全部都可以归属于典型的「人机共驾」问题。

「它经常会在不合适的时机进行变道，但如果你想拨一把方向盘救个急，它还会和你较劲，非常危险」，「整个过程就像看着自己孩子开车一样，干着急还提心吊胆，搞得压力很大」……

这里的「它」正是特斯拉 Autopilot 。之前美国《消费者报告》（Consumer Reports）曾报道称，更新后的 Autopilot 具备了自动变道的功能，车主可以选择在变道时不进行任何提醒，完全交由机器来抉择。但试驾编辑们在体验后却纷纷吐槽了它。

特斯拉 Autopilot 一直以来都争议不断。一边说它是新手们的福音，杜绝事故的好帮手，另一边却有人抨击它是事故的罪魁祸首。这套系统带来用户体验升级的同时也因为频发的安全事故而备受关注。

微信图片_20190827150952.jpg

开启了「Navigate on Autopilot」功能的特斯拉车型能够实现自主变道 | Teslarati

在「完全自动驾驶」这个纯技术的难题还未普及实现之前，「人机共驾」问题是所有汽车企业、自动驾驶企业都需要突破解决的另一道难题。

这道难题的核心是「人」这个不确定因素。按照控制权的划分，「人机共驾」又可分为「双驾单控」和「双驾双控」两种模式。前者关注的是驾驶权的交接和人车在主驾、副驾时的问题；而后者关乎驾驶自信，在人车都有控制权的情况下，该相信哪方多一点。

所以要建立一套高效、体验舒适、安全的自动驾驶系统是及其复杂的。原因很简单，机器是必须要和人进行互动的。而且这个互动的过程不光牵扯到机器人学科，还囊括了机器学习、心理学、经济学及政策等领域的问题。同时它也对我们已有的认知和假设形成了挑战：到底人类的表现能有多糟？人工智能又会是多么强大的存在？

微信图片_20190827150955.jpg

MIT 进行的「人机共驾」研究，右上角为试验车辆「Black Betty」| MIT

MIT 之前曾进行过一项关于「人机共驾」的课题研究，从设计和开发「以人为中心」自动驾驶系统的角度出发，提出了七大原则。这些指导原则中并没有把人类本质的复杂性剔除掉，而是将其融合到了整套系统中。这也恰恰是这套课题研究的精髓所在。

实验成果的展示我们可以在一辆叫做「Black Betty」的无人车上看到。它只搭载了摄像头，主要通过机器学习的方式进行外部环境感知，规划决策，驾驶员监控，语音识别、聚合以及管理人机双向操控的无缝切换（语音控制），方向盘上安装了扭矩传感器。通过下面的视频，大家可以看到这辆无人车的具体表现：https://www.youtube.com/watch?v=OoC8oH0CLGc

「人」才是复杂因素？

在过去的十几年里，汽车自动驾驶的能力在逐步提升，迫使政策制定者以及行业安全研究人员开始思考如何为「自动驾驶」定级的问题，目的是借此为相关法律、标准、工程设计甚至是业界交流提供可参考的框架。目前行业内普遍采纳的是美国汽车工程学会 SAE 制定的分级标准，它将自动驾驶分为 L0 到 L5 共六个等级。不过 SAE 对每个级别的定义其实是很模糊的，并不能给出清晰、明确的区别，所以它似乎已经不太适合作为引发行业思考的「砖」了，更像是汽车系统设计开发的一套指导原则。

微信图片_20190827150959.jpg

美国汽车工程学会 SAE 对自动驾驶的分级 | SAE

目前业界对自动驾驶汽车有如下三种普遍的观点：1. 驾驶任务很简单；2. 人类不擅长开车；3. 人类和机器无法做到良好的配合。相较这些观点而言，MIT 的研究则完全朝着相反的方向进行：1. 开车这件事实际上很难；2. 人类是非常棒的驾驶员；3. 让人和智能机器实现高效协作是能够实现的，而且是很有价值的目标。

基于这样的前提和假设，MIT 提出了「以人为中心」的框架并将其应用至人机共驾系统的开发过程中，在执行具体的驾驶任务时将人类与机器的边界完全去掉。与此同时，MIT 还提出了针对人机共驾的「七原则」，讨论了在设计、开发、测试「Black Betty」的过程中如何应用这些原则。

「人机共驾」的七原则

一、人机共驾（Shared Autonomy）

MIT 认为自动驾驶应该分为两个等级：一、人机共驾（Shared Autonomy）；二、全自动驾驶（Full Autonomy）。这样的分类方式不仅能够提供有建设性的指导方针，添加必要的限制条件同时还可以对要实现的目标进行量化设定。甚至，对每个类别下要实现的功能、对应的技术需求以及可能遇到的问题都可以划分出来。

这个原则的核心在于对「人类驾驶员在环」的讨论。为了实现对车辆的有效控制，人和机器组成的团队必须共同保持对外部环境有充分的感知。目标是促使整个行业对「人机共驾」和「全自动驾驶」进行清晰地划分。

微信图片_20190827151002.jpg

表 I 「人机共驾」和「全自动驾驶」这两种路径中涉及的技术，包括用于大规模量产时对每项技术表现的等级要求 | MIT

需要指出的是，表 I 中的术语「Good」和「Exceptional」用来表示解决 1% 极端案例的优先级顺序。远程操控、V2X 和 V2I 等并非必须的技术，如果要使用的话需要达到特殊的能力要求。

在实现高等级自动驾驶的方法上，传统思路全程都跳过了对「人」这个因素的考虑，精力主要集中在对地图、感知、规划以及表 I 中「全自动驾驶」一栏标注为「exceptional」的技术上。实际来看，考虑到目前的硬件和算法能力，这种解决方案对高精度地图、传感器套件的鲁棒性要求很高，提供的是较为保守的驾驶策略。

而正如表 I 所述，「以人为中心」的自动驾驶汽车着眼点主要在司机身上。负责控制车辆的依然是人，但前提是要对人的状态、驾驶方式及之前的人机合作经验做充分的考量，同时把车辆的转向、加减速等交由人工智能系统负责。以特斯拉的 Autopilot 为例，之前 MIT 的研究显示，测试中有超过 30% 的行程都是由这套 L2 级驾驶辅助系统控制完成的。而如果人机共驾应用成功的话，应该能实现超过 50% 的机器控制率。在这次实验中，MIT 表示无人车系统在接管过程中呈现出了不同程度的能力，而人类驾驶员始终在密切关注着机器的动态，根据感知系统获得的信息及时预测可能发生的危险。

二、从数据中学习（Learn from Data）

从表 I 不难发现，这其中涉及的任何一项车辆技术都是数据驱动的，需要搜集大量的边缘案例数据，利用这些数据持续不断地优化算法。这个学习过程的目的应该是，通过大量数据实现从传统的模块化监督学习向端到端半监督式和无监督学习过渡。

要实现车辆的自动驾驶，传统的方法，不管是哪个级别，几乎都不会大量的应用机器学习技术。除了在一些特殊的线下场景，比如 Mobileye 的视觉感知系统要进行车道线识别，或者是通用 Super Cruise 搭载的红外摄像头要对驾驶员头部动作进行预测等。

特斯拉的 Autopilot 可能要比其他方案更进一步，在开发针对第二代硬件平台 HW 2.0 的软件算法时，在视觉感知上应用了越来越多监督机器学习的原理。但即便如此，对车辆的绝大部分控制以及对驾驶员状态监测的实现中，并没有利用大数据驱动的方式，也几乎不涉及线上学习的过程。

而在目前业界进行的一些全自动驾驶技术的路测中，机器学习主要应用于环境感知这一环节。更甚的是，这些车辆采集到的数据，无论是从量还是多样性来看，和具备 L2 级自动驾驶能力的车型相比，逊色不少。

微信图片_20190827151007.jpg

特斯拉 Autopilot 对目标物、车道线的检测主要依赖机器学习算法进行 | Electrek

MIT 认为，「L2 级自动驾驶系统中机器学习框架使用的数据，从规模和丰富性的角度来看都具有足够的扩展能力，可以覆盖多变的、具有代表性、挑战性的边缘案例。」人机共驾（Shared Autonomy）要求同时搜集人和车辆的感知数据，挖掘分析后用于监督学习的标注。在 MIT 的实验过程中，驾驶场景感知、路径规划、驾驶员监控、语音识别以及语音聚合都应用了深度神经网络模型，可以通过搜集到的大量驾驶体验数据进行持续性的调校和优化。

在进行数据采集时，MIT 表示并不会只局限于单一的传感器来源，而是对整个驾驶体验通盘考虑，并将所有的传感器数据流通过实时时钟（real-time clock）汇总、聚合，用于多个神经网络模型的标注。这种方式能够让驾驶场景与驾驶员状态能够很好地匹配起来，而在聚合的传感器数据流进行标注工作，使模块化的监督学习可以在数据规模允许时轻松地向端到端学习过渡。

三、监督人类（Human Sensing）

这个其实就是我们俗称的「驾驶员监控」。它指的是对驾驶员的整体心理以及功能特征，包括分心、疲惫、注意力分配和容量、认知负荷、情绪状态等的不同程度进行多维度的衡量和评估。

目前除了通用 Super Cruise 在方向盘上装有一枚红外摄像头外，不管是搭载了 ADAS 驾驶辅助系统的量产车型，还是在路测的全自动驾驶汽车，绝大部分都没有提供任何有关驾驶员监控的软件和硬件。特斯拉 Model 3 其实也装了一枚车内摄像头，但目前尚未启用，具体功用官方表示要等软件更新后才知道。而基于视觉的解决方案以外，市面上还包括一些准确率不高的方式。比如特斯拉在方向盘上安装了扭矩传感器，也有的公司利用监测方向盘是否发生倒转的方式推断驾驶员是否出现疲劳情况。

微信图片_20190827151010.jpg

全新一代凯迪拉克 CT6 搭载的驾驶员监控系统由 Seeing Machines 提供 | 官方供图

MIT 认为「对驾驶员状态的感知和监控是实现高效人机共驾的的第一步，同时也是最关键的一步。」在过去的二十多年里，来自机器视觉、信号处理、机器人等领域的专家都进行过相关课题的研究，目的都是在探讨如何尽可能保证驾乘人员的安全。此外，对驾驶员状态的监测对如何改善和提升人机交互界面、高级驾驶辅助系统 ADAS 的设计都有很大帮助。随着汽车智能程度的不断提高，如何准确、实时地探测到驾驶员的各种行为对打造安全的个性化出行体验尤为重要。

比较有意思的一点是，从完全的手动驾驶到全自动驾驶，这其中涉及到不同模式切换的问题。一般来说双手脱离方向盘（handoff）就是一种信号，可能表示系统要做好接管的准备了，但还有什么其他更准确的信息可以用来判断，可能这也是「驾驶员监控」的研究人员需要持续思考的地方。

四、共享的感知控制（Shared Preception-Control）

通俗点来说，这相当于为整个自动驾驶系统增加了「一双眼睛和手」。目的是建立额外的感知、控制和路线规划机制。即便在高度自动驾驶系统运行状态下，也要及时地为驾驶员推送信息，将其纳入到整个驾驶过程中。

研究全自动驾驶的目的就是为了完美地解决「感知-控制」的问题，考虑到人类的不靠谱和行为的不可测性。所以传统观点认为最简单的办法就是把人从开车这件事上排除掉，像十几年前在 DARPA 挑战赛中获胜的队伍一样。

但和传统解决思路相反的是，MIT 提出的「以人为中心」的理论将人置于感知和决策规划闭环中的关键位置。因此，整车感知系统就变成了支持性的角色，为人类驾驶员提供外部环境信息，这其实也是为了解决机器视觉本身存在的局限性而考虑的。

微信图片_20190827151014.jpg

微信图片_20190827151017.jpg

表 II MIT「以人为中心」自动驾驶系统执行的感知任务，包括对驾驶员面部表情、动作以及可驾驶区域、车道线以及场景内物体的检测 | MIT

在 MIT 的研究中，工作人员围绕这个原则设计了几条关键的算法。表 II 是其中几个典型的案例。首先，从视觉上可以看到神经网络做出的判断、道路分割的区域以及对驾驶场景状态的预估的可信程度；其次，将所有的感知数据整合并输出融合式的决策建议，这样在表 IV 的场景下就能够对整体风险进行预估；再次，MIT 一直使用的是模仿学习：将人类驾驶员操控车辆时方向盘的动作作为训练数据，进一步优化端到端的深度神经网络；最后，MIT 使用的端到端的神经网络属于一个叫做「arguing machines（争论机器）」框架的一部分，它为主要的感知-控制系统（表 III）提供了来自人类的监督。

这里的「争论机器框架」是 MIT 2018年提出的一个概念，详细技术细节可点击（http://1t.click/DAK）查看。它将主要 AI 系统与经过独立训练以执行相同任务的次要 AI 系统配对。该框架表明，在没有任何基础系统设计或操作知识的情况下，两个系统之间的分歧足以在人工监督分歧的情况下提高整体决策管道的准确性。

微信图片_20190827151021.jpg

表 IV 通过结合车内外感知系统数据得出的融合型决策能够充分预估可能发生的风险 | MIT

五、深度定制化（Deep Personalization）

这里涉及到一个「将人类融入到机器中」的概念。通过调整 AI 系统的参数，使其能够更适合人类操作并呈现出一定程度的定制化。最终的系统应该带有该驾驶员的行为特征，而不是像刚出厂时的普通配置一样。

六、不回避设计缺陷（Imperfect by Design）

对整个汽车工业而言，处于很多原因的考虑，进行工程设计时通常考虑最多的是「安全」，所以要尽可能地讲系统错误出现的频率和程度降至最低。换句话说，对自动驾驶而言，完美是目标，这也导致了在进行某些功能设计时，可能会因其「不完美」和「不确定」的性质而放弃这些可能是「必要」的设计。

但是在 MIT 的研究看来，丰富、高效的沟通机制在设计用于实现「人机共驾」的人工智能系统时，是非常必要的因素。就「沟通」而言，系统存在的不完美对人和机器而言，在进行感知模型的交换和融合过程中，能够提供密集、多样的信息内容。如果将 AI 系统的不确定性、局限性和错误都隐藏起来，这也就错失了与人建立信任、深度理解关系的机会。MIT 认为，此前业界在设计半自动驾驶系统时所采取的「完美」思路，可能是迄今为止所犯的严重错误之一。

而在开发「Black Betty」这辆无人车时，MIT 把人工智能系统的局限性通过文字和视觉的形式与人类进行充分沟通。例如将人类和机器对外部世界的感知视觉化，让驾驶员知晓 AI 系统的局限所在。研究人员表示这种方式相比只是提供「报警」或者「模糊的信号」，是最简洁有效的人机沟通方式。尽管这种沟通机制要实现还面临一些技术上的难题，比如视觉化的过程通常对芯片的算力和实时调用的能力要求很高。但值得机器人、自动化以及人机交互等领域共同关注并思考解决的办法。

七、系统级的驾驶体验（System-Level Experience）

目前，汽车工业的工程设计过程中，一个最主要的目标就是「安全」。另一个则是「降低成本」。第二个目标导向的是模块化、基于零部件的设计思考。但同样的模式在面向机器人、计算机视觉、机器学习等领域的人工智能系统设计中却有着迥异的理由。

譬如在设计中重视单一功能（目标物检测等）的实现，能够有效测试该算法的合理性并逐步使之得到改善和优化。但是这个过程也难免会把注意力过渡集中在单一功能而忽略了系统的整体体验。

在过去的几十年里，「系统工程」、「系统思考」这样的原则一直在指导着汽车工业产品的输出。然后，类似的思考却几乎没有应用在自动驾驶汽车的设计、测试和评估过程中。正如 MIT 上面提到的这六大原则，人和机器都不可避免会有缺陷，只有当「人机共驾」这个框架在系统层面上得到考虑时，这些缺陷才可能有机会成为优势。

对「人机共驾」的永恒讨论

不管短期还是长期来看，其实很难预测自动驾驶的哪条实现路径最终会成功，而且退一万步说，你甚至都不知道什么样的结果算得上是「成功」。在谈到研究目的时，MIT 希望一套自动驾驶系统能够同时满足「安全」、「愉悦的驾驶体验」和「提升的出行体验」这三个要求，而不是彼此妥善折中。而尽管「人机共驾」这个话题在过去的十年里，是包括汽车工业、机器人在内很多领域研究的焦点，但它仍值得更深入的探讨。

在今年四月份的上海国际车展上，Tier 1 供应商采埃孚联合英伟达推出了coPILOT 智能高级驾驶辅助系统。这是一套定位「L2+级」的自动驾驶辅助系统，目的是提高乘用车的安全性和驾驶舒适性。从产品名称不难看出，这套系统同样强调了「人机共驾」的概念。它配备了相应的传感器和功能，能够监控驾驶员并在发生潜在危险情况时触发警告。例如，当发生驾驶员注意力不集中、几乎完全未将注意力放在路面交通上或显示出瞌睡迹象等。所以人工智能扮演了「私人驾驶助手」的角色，这个产品理念与 MIT 的研究不谋而合。

到底完美解决驾驶任务比完美管理人类的信任和注意力哪个更难？这是值得深思熟虑的问题。MIT 认为关于这个问题的讨论仍不会停止，不管是这篇论文还是「Black Betty」这台无人测试车，都是基于「人机共驾」研究的成果，MIT 认为它是开发「以人为中心」自动驾驶系统的必由之路。

内容来源：TopMove

责任编辑：龚淑娟

审　　核：李峥