FPGA+CPU架构的自动驾驶平台性能分析

文章来源：智能汽车设计发布时间：2022-03-03

分享到

本文将以Xilinx 推出的Zynq UltraScale+ MPSoC ( Part#=ZU19EG )为例，来阐述其方法。

一、介绍

由于在自动驾驶领域需要对传感器的数据作大量的基于深度内神经网络的复杂运算，GPU和FPGA被不约而同地用来作为对CPU的一种加速器被使用。这样做不仅可以提高计算性能，并且可以大幅度地降低能耗。FPGA+CPU架构的自动驾驶平台凭借其灵活性，高效率，低能耗等特点，正越来越多地被一大批拥有技术实力的公司使用，比如Waymo,百度，福特，通用等。

在这里本文试图探讨如何对FPGA+CPU自动驾驶平台的性能进行估计，目的是希望帮助开发者在选择FPGA+CPU自动驾驶系统平台时初步掌握一种对系统性能的评估方法。

本文将以Xilinx 推出的Zynq UltraScale+ MPSoC ( Part#=ZU19EG )为例，来阐述其方法。

由于作者知识水平和写作方法的局限，如读者能指出错误纰漏之处，将万分感谢。

二、基于FPGA+CPU的自动驾驶平台系统设计

图一是比较典型的基于FPGA+CPU的自动驾驶系统原理图。一般来说配置一个多核的应用处理器单元-Application Processor Unit(简称AP)用来跑一个或者多个操作系统,主要用来任务调度，管理等工作，而大数据的处理：比如图像的特征值提取，目标类别识别，多目标跟踪，运动预测等复杂运算多放在FPGA 的可编程逻辑模组Programmable Logic(简称PL)来处理。

衡量自动驾驶平台的性能，关键点在几方面：

1、系统对大数据的处理能力，在这里就是要了解FPGA的PL模组的运算能力。

2、复杂多任务的处理能力，即应用处理器CPU的运算能力。

3、高速海量数据的传递，即传感器的数据接收，以及PL和AP之间的数据通讯能力。

由于篇幅原因，本文将只对第1点进行详细叙述，而第2，3点只做简单叙述。

图一：基于FPGA+CPU的自动驾驶平台原理图

三、如何计算FPGA PL的性能

3.1 FPGA 性能难以计算

在介绍如何计算FPGA的性能之前，我们来了解一下目前主流的FPGA的硬件。以Xilinx的Zynq UltraScale+ MPSoC为例，其PL包含可编程资源 Logic blocks, RAM, DSP slices等。

而要得到最终的FPGA 性能值，由于以下几点原因而变得困难。

不太容易知道需要多少个logic cell和DSP slice才能构造成一个加法器。这个数量是FPGA IP core供应商决定的,用户难以知晓。
通常FPGA用来实现和Application processor通讯的I/O设备需要占用一定数量的Logic cell,导致FPGA 资源不可能全部被利用到构造加法器。
浮点运算会导致设计的clock无法达到100%的设计指标，相对于设计的clock频率指标，只能达到在80%左右
温度影响也要求系统的clock必须作出调整而不能以一个固定的值来计算

3.2 一种PFGA性能计算方法

目前通常使用的方法是参考系统的每秒浮点运算操作(floating-point operations per second ),简称FLOPS。因为浮点运算用到的所有的高阶函数，比如除法，平方，三角函数等，都能归结为加法，乘法运算，且常用的傅里叶变换，矩阵操作也都可以用加法器(adder)和乘法器(multipliers)的组合来实现，所以FLOPS和加法器/乘法器的数量在衡量其运算性能上是直接关联的。

为了计算FPGA的最大运算能力，我们可以通过利用单精度(Single-Precision)数据加法器数量的方法来求出一个系统的FLOPS。较乘法器而言，加法器利用到的系统资源少，求出的系统FLOPS的值就会接近最大值。

假设所有的运算都是并行的，那么可以得到下面的FLOPS计算公式：

FPGA PL FLOPS = ( Clock1 x LC based Adder#) + ( Clock2 x DSP48 based Adder#)

根据以上公式，下面我们以Xilinx的Zynq UltraScale+ MPSoC的ZU19EG为例，来求其FLOPS.