针对自动驾驶的感知一直存在着不同的路线,以特斯拉为代表的主要依靠摄像头的纯视觉和以Waymo为代表的激光雷达、毫米波雷达、摄像头等多传感器融合路线。孰好孰坏其实是很难判断,因为整个自动驾驶行业尚未有成熟的验证方法去证明其系统的优势,大多是以自身优势去对比他人的劣势,这其实是一种理想化的想法,一开始就进入反客为主的先验思维。随着传感器的搭载量、系统的复杂性和商业模式的不确定,自动驾驶行业从信心满满的雷达融合路线逐渐开始动摇,所有的企业开始探索不同的路线,试图找到突破口。比如,4月7日,丰田汽车旗下WovenPlanet宣布,将使用低成本摄像头来收集数据,并通过有效训练来研发和提升其自动驾驶系统;近日,视觉巨头Mobileye展示了搭载其真正冗余(True Redundancy™)传感系统的自动驾驶汽车在以色列行驶的情况。Mobileye表示,真正冗余(True Redundancy)是Mobileye独特的环境传感解决方案,包含两个独立的子系统——一个仅采用摄像头,另一个采用了激光雷达和雷达的结合,两个独立传感子系统互为备份。通过Mobileye发布的信息来看,其认为决定自动驾驶的关键不仅仅是车载算力,更多的是战略和发展意图。单一的炒作某一传感器或者车载芯片无非是夺人眼球和别有用心罢了,对于整个系统的落地可能是促进作用,而非决定。
无论是纯视觉和雷达融合,都是实现目标的效用函数,本质上没有区别,区别就在于约束条件和资源的不同,这一点从系统架构中就可以看出。雷达融合感知方案,以小鹏P5为例,全车主要的传感器有两颗激光雷达;5颗高精度毫米波雷达;12颗车外摄像头;1颗舱内摄像头。纯视觉的特斯拉硬件主要有1颗高精度毫米波雷达,12颗摄像头。单从一台车的硬件上来看,相比于雷达的多传感器融合,特斯拉的纯视觉首先在单车成本上具有一定的优势,但是纯视觉高度依赖视觉AI,也就是需要大量的数据用来模型训练,将车端的一部分成本转移到后端,除了整车的硬件价格以外更多的是通过其他的方式去获取盈利空间。眼见特斯拉的风生水起,加上学术界的讨论,让行业产生了纯视觉的路线相对简单的错觉,其实纯视觉更多的难点在隐蔽的角落。
根据特斯拉在去年AI DAY上的展示,其坚定的走纯视觉路线的底气主要有四大层,第一层感知架构层,名为“HydraNet”感知神经网络架构(HYDAR就是神盾局中的大反派九头蛇),由主干(Backbone)、颈部(Neck)与多个分支头部(Head)共同组成,主干层将原始视频数据通过残差神经网络(RegNet)及BiFPN多尺度特征融合结构完成端到端训练,提取出颈部层的多尺度视觉特征空间(feature map),最后在头部层根据不同任务类型完成子网络训练并输出感知结果,共计支持包括物体检测、交通信号灯识别、车道线识别在内的1000多个任务;第二层数据传输层,构建虚拟硬件的标准数据,在感知框架中引入虚拟层将不同车辆采集到的数据处理后统一输出,以此达到不同的汽车采集到的数据共同构建一个通用的感知网络架构;第三层空间转换层,利用Transformer实现摄像头采集的二维空间转为三维用于机器训练。相比于先前的“后融合”方案,特斯拉转向“前融合”进一步提高了识别的深度信息和预测精度。
第四层时序层,特斯拉在感知网络架构引入了时空序列特征层,通过使用具有时间维度的视频片段而非静态的图像来训练神经网络,比如在车道线阶段性的失去后,系统会自动拟合出一条虚拟车道线、根据图像的位置关系判断遮挡后的物体,这样就可以解决一部分高精度地图的问题。除了视觉感知基础技术以外,特斯拉自研打造了服务于自动驾驶的全球最强超级计算机——Dojo,用于支撑超大规模的数据和高性能的算法。理论上特斯拉的这条路是可以行得通,车端大规模获取数据和持续迭代硬件平台FSD算法支持自研超级算力服务AI训练,算法反哺智能汽车迭代进化。
雷达融合和纯视觉不应该成为对立的两种路线,而是在不同约束下的两种设计风格或者系统,所以没有完美的系统,多传感器融合系统和架构更复杂,对于单车算力要求更高,每增加一个传感器就会增加算力需求导致整车的硬件成本上升,而在依靠摄像头的系统方案相对简单,多与整车算力需求不是很大,会降低一部分成本,但是对于算法和后台数据的处理能力要求极高,只能在保证目标完整性的前提下不断的逼近完美。作为汽车新技术的自动驾驶,类比以往新技术的发展历程,一定是经历前期的方案探索,然后是满足少数极客的方案,此时的产品既不成熟并且价格昂贵,随着技术的发展和产业规模的扩大,性价比高的产品才会出现,从而大规模应用新的产品飞入寻常百姓家。很多专家喜欢预测未来,比如自动驾驶的终极是雷达融合还是纯视觉方案,其实从中整个人类科技发展的趋势去看待这个问题就很好理解,随着科技的发展,我们的约束条件在减少,所以使用需求在不断增多。其实未来不需要预测,而是不断地迭代产品才会呈现的。
雷达融合方案中激光雷达作为传感器虽然比摄像头的优势明显,受光线影响小、测距精度更高、抗干扰性能强等优点,输出的是无序三维点云处理方法相对视觉简单一点,而摄像头的图像像素点是有序的完整二维格子,两者之间的融合方法仍然是学术界的焦点,所以雷达融合方案做到性能领先纯视觉,激光点云和图像的融合也是亟待突破的点。增加传感器虽然可以减少约束获取更多的数据信息,但是处理信息又将成为新的技术难点,其中有算法的突破,还有车载芯片的支持,更重要的是产品和成本的平衡。从另一方面来看,随着多传感器的技术应用会促进传感器市场的发展,有利于人类对于物理世界的探索感知,企业建立技术堆栈进一步向实体应用延伸。
工程问题只关注函数的问题空间和解空间,而科学问题关注的是连接的规律和规则。无论是纯视觉还是雷达融合其实是工程问题,而发现两者之间的联系是科学问题。当无法确定函数解的时候,不妨从科学的角度分析问题继而再解决问题。例如,Mobileye选择的互为备份的双系统应该是一个过渡阶段,通过共同的目标验证两个系统的优劣势,从而选择最优的一套,毕竟成本将会是“压死”产品的最后一根稻草。这个思路有点像特斯拉的影子模式,通过拟合真实世界的数据训练模型。
人有一种天生的欲望,就是想要窥探别人的内心,从而传递自己的恐惧,为别人和自己一样的恐惧而感到安慰。人类管理的企业也是一样的道理,面对未知的变革必定会去不停地去对标亦或不停地去宣传自己的路线引导大家同步来对抗自身的恐惧感。纯视觉也好雷达融合也罢其实争论的意义不大,重要的是要建立产品的迭代开发体系和增量开发方式,无论哪种实现方式都将是最终产品的基础支撑,正如一句鸡汤那样,星光不负赶路人,前提是你一直在赶路。
自动驾驶没有上下半场,而是将会处于一种持续迭代的状态,不断地更新产品、更新技术应用。同样的,对于技术的探索也没有终局,随着能源供给体系的变革,机器认知的不断提高,人类的对于世界的认知范围在不断扩大,那么在这一过程中,所有的技术都将会有发挥作用点。雷达融合方案的上车带动了激光雷达和高算力芯片市场的火热,同样纯视觉方案也会导致服务器和数据市场的向阳而生。
技术应用一定是配合商业模式的发展,特斯拉的纯视觉方案会降低整车的成本,而超算芯片、自动驾驶芯片的开发以及视觉算法开发的成本分摊到产品每一次软件的更新迭代中,也就是未来特斯拉软件更新的频率将还会加快,只有足够的规模下才能建立其商业模式。而雷达融合方案单车成本较高,如果按照特斯拉的模式建立商业模式一定不会成功,硬件的高成本会导致产品市场占有率下降,如果将成本分摊到每一次软件升级将会导致企业面临巨大的现金流压力,很可能等不到企业盈利的那一天就无法正常运转。技术的背后即为商业,产品就是搭建技术和商业的桥梁,三者缺一不可,不同的技术发展一定需要建立不同的商业模式,东市买骏马,西市买鞍鞯的方式无论是哪一方案最终都不会成功甚至会打击整个行业前进的信心。
自动驾驶作为改变人类出行方式的革新应用,在探索过程中犯错不可怕,可怕的是混乱,技术研究的混乱,商业模式的混乱等等,错误尚可吸取教训,而混乱只会加速灭亡。
评论
加载更多