2023年特斯拉FSD自动驾驶方案深度解析

来源：德邦证券
发布时间：2023/11/08
浏览次数：580
举报

特斯拉FSD架构详解

FSD为一套包含感知/规控/执行的全链路自动驾驶软硬件架构

FSD架构：在数据、算法、算力等各个层面打造了一套包含感知、规控、执行在内的全链路自动驾驶软硬件架构。规划（Planning）:本质是解决多物体关联路径规划问题，处理自我和所有对象的行进轨迹，指导汽车完成相应的执行动作。神经网络（Neural Networks）：通过分析视频流等信息，输出完整的运动学状态（位置/速度/加速度/颠簸）控制车辆。训练数据（Training Data）：通过最新的4D自动标注技术、升级模拟仿真及云端计算资源，形成数据闭环。训练基础设施（Training Infra）：包括CPU、GPU、神经网络加速器单元（Neural Network Accelerator）、AI编译器等，其中AI编译器能够支持神经网络所需的新操作，将它们映射到最佳的底层硬件资源上。AI编译与推理（AI Compiler & Inference）：即如何在计算机上运行神经网络。当前的推理引擎能够将单个神经网络的执行分配到两个独立的芯片系统上执行，可以理解为有两台独立的计算机在同一台自动驾驶计算机内相互连接。

基于Vector Space的FSD路径规划，能够快速产生最优解

具体解决路径：从一组视觉测量开始，包括车道、占用率、移动物体等（这些都表现为稀疏的抽象和潜在特征），感知得到的Vector Space，通过Vector Space规划出后续潜在目标状态，进一步考虑细分互动，得到决策规划的路径。

对于未知及不确定性（corner case）的决策——通过 Occupancy Network对可视区域进行建模用来处理未知不可见场景。需要根据这些假想的参与者做相应的保护性驾驶，将控制反应与存在可能性函数相协调，得到非常类似人的行为。

至此，特斯拉FSD最终架构浮出水面：首先，通过视觉感知网络生成三维向量空间，对于仅有唯一解的问题，可直接生成明确的规控方案，而对于有多个可选方案的复杂问题，使用向量空间和感知网络提取的中间层特征，训练神经网络规划器，得到轨迹分布。其次，融入成本函数、人工干预数据或其他仿真模拟数据，获得最优的规控方案。最终生成转向、加速等控制指令，由执行模块接受控制指令实现自动驾驶。

HydraNets（九头蛇网络）为视觉感知网络的基础结构

网络基础结构—九头蛇网络（HydraNets）由主干（Backbone）、颈部(Neck)）与多个分支头部 (Head）共同组成。主干层将原始视频数据通过残差神经网络(RegNet)及多尺度特征融合结构(BiFPN)完成端到端训练，提取出颈部层的多尺度视觉特征空间 (multiscale features ），最后在头部层根据不同任务类型完成子网络训练并输出感知结果。优势一：特征共享(Feature Sharing)。使用同一主干网络提取特征并共享给头部使用，可以在测试阶段分摊在车上运行的前向判断，避免不同任务之间重复计算现象，提升网络运行效率。优势二：任务解耦（De-Couples Tasks）。不同类型子任务之间可以进行解耦，这样可以单独处理每一项任务，对单项任务的升级不必验证其他任务是否正常，升级成本更低。优势三：特征缓存（Representation Bottleneck）。因为这里存在颈部，可以将特征缓存到硬盘，具有较强的扩展性。

通过端到端的感知训练模型，从数据输入到空间向量输出

Step 1 图像输入（Image Input）：校准每个相机的图片，将原始12位RGB图像（而非典型的8位）输送给网络。多了4位信息能够使得动态范围提升16倍，同时减少延迟（无需在循环中运行图像信号处理ISP）。 Step 2 图像校准（Rectify）：通过不同的汽车采集到的数据共同构建一个通用感知网络架构，不同汽车由于摄像头安装外参的差异，可能导致采集的数据存在微小偏差，为此特斯拉在感知框架中加入了一层“虚拟标准相机(virtual camera)”，引入摄像头标定外参将每辆车采集到的图像数据通过去畸变、旋转等方式处理后，统一映射到同一套虛拟标准摄像头坐标中，从而实现各摄像头原始数据校准，消除外参误差，确保数据一致性，将校准后的数据传输给主干神经网络进行训练。Step 3 特征提取（Image Featurizers）：用一组RegNet（特定残差网络，specific class of resnets）和BiFPN（加权双向特征金字塔网络）作为提取图像空间特征的主干。

Step 4 构造空间位置（Spacial Attention）：将摄像头采集到的数据通过【BEV空间转换层】构造一组3D位置，同时将图像信息作为键(key)值(value)，输入给一个注意力模型（核心模块是【Transformer神经网络】）。注意力模型的输出是高维空间特征，这些高维空间特征与车辆上的里程数据进行暂时协调，来推导出运动。该方案厉害之处在于可以将地面坡度、曲率等几何形状的变化情况内化进神经网络的训练参数中。Step 5 时间对齐（Temporal Alignment）：上述高维空间暂时特征经过一组反卷积，产生最终的占用率和占用率流输出。它们生成的是固定尺寸块的网格，为了提高精度，模型还生成了per volex feature MAP输入到MLP中，借助3D空间点查询（query）来获取任意点的位置和语义信息

基于3D Occupancy迭代车道线及障碍物感知模型

早期，将车道检测问题建模为一个图像空间内实时分割的任务，只能从几种不同的几何形状中辨别车道。具体而言，可以分别出当前车道、相邻车道，能特别处理一些交叉和合并的情况，然后用粗略的地图数据对其进行增强。这种简化模型对高速这种高度结构化的路是有效的。当前，引入Map Component，使用了低精度地图中关于车道线几何/拓扑关系的信息（车道线数量/宽度、特殊车道属性等），并将这些信息整合起来进行编码，与视觉感知到的特征信息一起生成车道线（Dense World Tensor）给到后续 Vector Lane模块。

由2D手工标注逐步升级为4D自动标注，数据闭环趋于完善

做法：在2D图像上标注出各种物体，具体表现为在单个物体上绘制出一些多边形和折线，用以描绘出边界框（Bounding Boxes）。缺点：数据量很大的情况下，工作量极大，标注效率低。

含义：在三维或四维空间中，为不同的时间点和空间位置赋予独特的标签或标识符。做法：直接在向量空间中进行标注，将其投影到相机图像中。优点：能够支持大量数据标注；由于只需要在空间中标注一次，然后自动投影，标注效率大幅提升。

如何进行仿真模拟？——五大步骤

Step 1 准确的传感器仿真（Accurate Sensor Simulation）:由于FSD的感知系统是基于纯摄像头，因此需要对摄像头的各种属性进行软硬件建模，如传感器噪声、曝光时间、光圈大小、运动模糊、光学畸变等。Step 2 逼真的视觉渲染（Photorealistic Rendering）：为了更真实的模拟现实世界场景，需要仿真渲染尽可能做到逼真。特斯拉利用神经网络视觉技术提升视觉渲染效果，同时用光线追踪的方法模拟逼真的光照效果。Step 3 多元化的交通参与者与地理位置（Diverse Actors & Locations）：为了避免仿真环境过于单一，导致感知系统过拟合的问题，特斯拉对仿真环境参与物进行了充分建模，包括多元化的交通参与者和静态物体。

Step 4 大规模场景生成（Scalable Sensor Generation）：由计算机通过调整参数生成不同的场景形态。同时由于大量的仿真场景可能是的无用的，为了避免浪费计算资源，引入MLB等神经网络寻找故障点，重点围绕故障点进行仿真数据创建，反哺实际规划网络，形成闭环。Step 5 场景重现（Sensor Recontruction）:在完成真实世界片段的自动标注重建后，叠加视觉图像信息，生成与真实世界 “孪生”的虚拟世界，复现真实世界中FSD失败的场景，实现在仿真环境下的优化迭代后再反哺汽车算法模型，实现“数据闭环”。

FSD V12展望

FSD V12或将完全转向端到端自动驾驶技术方案

23年8月26日，特斯拉CEO马斯克开启了一场路测特斯拉FSD V12的直播。直播全程45分钟，马斯克只有一次驾驶干预，这发生在一个繁忙的十字路口，马斯克所驾驶的特斯拉试图闯红灯，他立即控制了车辆。直播中仪表盘中的实时道路场景可以看出，V12保留了当前 FSD输出的感知结果。以UniAD为例，利用多组query实现了全栈 Transformer 的端到端模型。图中UniAD 由2个感知模块，2个预测模块以及一个规划模块组成。其中感知和预测模块是通过Transformer架构进行预测，每个模块输出的特征会传递到之后的模块来辅助下游任务，这样的模型结构实现了端到端可导，显著提升了模型的可解释性。

端到端方案中神经网络是关键，有望实现全局最优解

原理：与模块化方案相比，端到端自动驾驶方案将感知、规划、控制各环节一体化，去除了各模块基于规则的代码，将传感器收集到的信息直接输入神经网络，经过处理后能够直接输出自动驾驶指令，使得整个系统端到端可导。优点：能够降低对激光雷达、高精地图、人工的依赖，减少中间环节的成本；模型上限高，可以得到近似全局最优解。缺点：模型能力起步较慢，解释简单场景不如模块化架构，模型下限低；中间 “黑盒”解释性差。

感知端率先落地，BEV本质上是一种端到端感知解决方案

传统感知模型：2D图像被输入感知模块以生成2D结果，然后利用传感器融合对多个摄像机的2D结果进行推理，并将其提升为3D。生成的3D对象随后被发送到下游组件，例如预测和规划。BEV感知：应用鸟瞰图感知模型能够直接在BEV空间中感知环境，其感知堆栈将两个独立的组件组合成一个解决方案，本质上就是一种端到端的感知解决方案。当前应用端到端感知模型的典型企业为特斯拉和小鹏。特斯拉率先引入 BEV+transformer；小鹏2021年初开始试验XNet深度视觉神经网络，是国内首个且唯一量产的BEV感知。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）