特斯拉自动驾驶发展历程及进展如何?

特斯拉自动驾驶发展历程及进展如何?

最佳答案 匿名用户编辑于2025/01/02 13:16

全球自动驾驶领域领先企业。

1.发展过程:第一性原理贯穿发展历程,自动驾驶系统持续迭 代升级

特斯拉自动驾驶发展持续强调“第一性原理”,聚焦发展纯视觉自动驾驶。 第一性原理是指回归事物最基本的条件,从问题最核心的部分开始推理,从 而找到解决问题的最佳方案。特斯拉认为唯一能出色完成驾驶任务的是人脑, 同时人类在驾驶时接受到的绝大部分信息来自视觉。因此,根据第一性原理, 马斯克认为解决自动驾驶的问题本质上是打造模仿人脑工作的自动驾驶系 统,不断发展纯视觉的感知路线,使算法运行更趋向于理解真实世界。 特斯拉自动驾驶系统历经四阶段重要迭代,自主研发能力持续提升。早期特 斯拉自动驾驶系统由外部供应商 Mobileye 提供,2016 年双方终止合作后, 特斯拉开始展开全栈自动驾驶算法自研,2020 年重构算法后,逐渐确立行 业领头羊位置。特斯拉自动驾驶算法及硬件主要经历了以下四个个阶段的迭 代发展:

第一阶段(2016 年前):自动驾驶自研尚未成型,依靠 Mobileye 公司技术 发布第一代自动驾驶系统。2014 年 10 月,特斯拉发布第一代 Autopilot,搭 载硬件 Hardware 1.0,自动驾驶系统软硬件均由 Mobileye 公司提供。2015 年,特斯拉开始布局自研自动驾驶软硬件,创建软件算法小组 Vision。 Mobileye 采用全封闭的"黑盒"策略来提供其软硬件系统,灵活度较低,难以 跟上特斯拉产品发展步伐,合作模式存在潜在弊端。2016 年 5 月,一辆在 Autopilot 状态下的 Model S 意外撞上垂直方向驶来的白色挂车,导致一人死 亡。2016 年 7 月,在事故的间接影响下,特斯拉与 Mobileye 终止合作,开 启自研之路。

第二阶段(2016 年-2018 年):开启全栈自研自动驾驶算法时代,具备开发 传统自动驾驶算法能力。2016 年 10 月,特斯拉发布 Hardware 2.0,搭载由 英伟达提供的自动驾驶芯片,受限于软件算法,特斯拉自动驾驶能力与 Mobileye 仍具有较大差距。特斯拉采取自动驾驶目标检测较为传统的通用 网络结构,首先通过主干网络 backbone 识别图像中的多个对象,再通过 neck 对更为精细的特征进行提取,最后通过 head 层提供检测对象,实例分割等 功能。较为传统及原始的自动驾驶神经网络通常只有一个 head 层,无法高 效完成自动驾驶场景中同时出现的多项任务。为解决此效率问题,特斯拉开 始对自动驾驶算法进行革新,聚焦自动驾驶网络结构及效率。

第三阶段(2018 年-2019 年):构建多任务学习神经网络架构 HydraNet,算 法,特斯拉自动驾驶算法逐步崭露头角。2019 年 4 月,特斯拉发布 Hardware 3.0 系统,首次搭载特斯拉自研 FSD 芯片,算力达 72TOPS,远超同时期市 面上的自动驾驶芯片。特斯拉整体自动驾驶的物体识别算法仍保持之前的 Head 层、Neck 层、及 Backbone 层架构。Head 层方面,特斯拉首次引入 HydraNet 概念,它允许系统不同任务之间共享特征,从而减少系统所需的卷 积计算量,并最小化所需的主干网络数量,此外,HydraNets 还将每个任务 从中央主干网络中独立出来,开发者可以对每个任务进行独立的微调;Neck 层方面,特斯拉引入 BiFPN 特征提取网络概念,BiFPN 用于结合不同尺寸 及分辨率的图像特征,在不同的尺寸上分别创建多个特征金字塔,然后将基 础结构进行多层堆叠,融合出更高纬度的特征,可以精准识别不同清晰度的图像;Backbone 层方面,特斯拉引入 RegNet 概念,相比于 ResNet 进行了 更高一层的抽象,可以创建新颖的设计空间范式,能够发掘更多的场景适配 新的"ResNet",从而避免专门去研究设计神经网络架构。特斯拉自主研发的 自动驾驶算法在硬件及软件端均取得进展,为第四阶段发展奠定了坚实基础。

第四阶段(2020 年-2021 年):特斯拉自动驾驶系统完成重构,引入 BEV+Transformer 核心架构、特征级多传感器融合、数据自动标注等多个 众多自动驾驶方案提供商至今仍在使用的核心技术,特斯拉登上自动驾驶 行业龙头位置。

1)BEV+Transformer 核心架构:过去自动驾驶系统主要依靠摄像头采集到 的 2D 图像数据,难以完美记录真实的三维世界信息。特斯拉引入 BEV 鸟 瞰图视角,将不同视角的图像信息统一成一个鸟瞰俯视图,有利于后续自动 驾驶规划控制模块任务;同时,BEV 视角有效解决了图像视角下的尺度和 遮挡问题。为实现 BEV 视角,特斯拉特斯拉引入大模型 Transformer,进行 3D 到 2D 的逆向开发。其中 Transformer 是一种基于注意力机制(Attention) 的神经网络模型,与传统的神经网络如 RNN 和 CNN 不同,Transformer 是 通过注意力机制来探索序列中不同元素间的相关性,使得 Transformer 可以 适应不同长度和不同结构的输入数据。特斯拉先在 BEV 空间层中初始化特 征,再通过多层的 Transformer 和 2D 图像特征进行交互融合,最终得到 BEV 特征。

2)特征级多传感器融合技术:自动驾驶系统依靠多个传感器对周围世界进 行感知,多传感器融合利用不同的传感器的优势弥补其他传感器的弱势,从 而实现对现实世界更准确的感知。为改善后融合策略易产生的信息失真劣势, 特斯拉引入特征级融合,先从每个传感器提供的原始观测数据中提取代表性 的特征,再对这些特征进行融合,得到总的特征向量,可以更好地保留传感 器收集到的原始数据,从而为后续规划提供支持。

3)数据自动标注技术:过去特斯拉采用自建的人工标注团队进行数据标注, 由于自动驾驶数据不断扩大,所需标注人员数量也进一步增长,导致了成本 不断攀升。为解决人工标注高成本低效率的弊端,特斯拉引入了数据自动标 注系统。车辆采集数据以 Clip 作为最小标注单元,一个 Clip 中包含视频、 惯性测量单元(IMU)、GPS、里程计(odometry)等其他数据。在车辆行驶 过程中,摄像头对路面信息进行采集,打包上传到服务器的离线神经网络大 模型,由大模型进行预测性标注,再反馈给车端各个传感器。由于传感器视角不同,当预测的标注结果在特斯拉使用的 8 个传感器均呈现一致时,则这 一标注成功。针对训练自动标注 AI,特斯拉会从自身的工程车(Engineering Cars)和客户车(Customer Cars)中获取 Clip 数据,使用手动标记来训练校 准自动标记人工智能神经网络。

2. 特斯拉自动驾驶进展:算法持续优化+配套设施升级,形成完 善算法训练体系

特斯拉不断优化自动驾驶算法自身,同时注重配套设施升级。特斯拉在 2022 年 AI Day 中公布其自动驾驶最新进展,自动算法方面,首次公布了特斯拉 在感知、决策规划、矢量地图方面的进展;配套设施方面,特斯拉介绍了其 用于自动驾驶算法训练的模拟仿真技术与自建的超算中心。自动驾驶算法优 化及配套设施升级两大方面齐头并进,为特斯拉自动驾驶算法持续发展迭代 提供了保障。

感知:引入 Occupancy Network 概念,进一步升级 BEV 体系

丰富自动驾驶面临的 3D 场景信息,准确识别任意形状障碍物。占用网络 (Occupancy Network)在 BEV 网络在高度方向进行了进一步扩展,将 BEV 坐标系下 2D 栅格位置编码生成的 Query 升级为 3D 栅格位置编码生成的 Query,将现实世界划分成一系列 3D 网格单元(也称为体素),每个单元对 空间中检测到的障碍物的被占用概率及未来运动轨迹进行预测。基于视觉的 占用网络相比于传统的雷达优势较为明显:占用网络可以对每个体素生成对 应的语义类别,图像识别能力较强;占用网络可以在 10ms 内完成计算,处 理频率高于雷达。同时,占用模型可以对不同形状的障碍物(甚至是障碍物 的某一部分)的运动轨迹进行预测。在演示中,有一辆公交车在特斯拉前方。 在矢量空间中,公交车的前部变成蓝色,表示模型预测它将首先移动;公交 车的后部仍然是红色,表示尚未预测到它会移动。

使用 8 颗摄像头进行图像采集,五阶段算法工作流高效产出空间建模。第一 阶段图像输入(Image Input),特斯拉使用车辆四周安装的 8 个摄像头来创 建三维矢量空间;第二阶段图像特征化(Image Featurizers),特斯拉维持了 与之前类似的 Head 层、Neck 层、及 Backbone 层物体识别的架构,采用 RegNet 及 BiFPNS 算法来特征化图像;第三阶段空间注意力构建(Spatial Attention),特斯拉使用了多摄像头查询(Mlticam Qurey Emdedding)及空间 查询(Spatial Query),利用特征的空间关系生成空间注意力图;第四阶段特 征对齐(TemporalAlignment)将不同时序的特征,对齐后进行融合;第五阶 段为输出阶段,进行去卷积(Deconvolutions)后,浓缩的特征数据被反向成 物体信息,根据不同需求输出三种不同的 Outputs:Volume Outputs 为输出 固定大小栅格的占用率和占用流;Surface Outputs 输出具有三维几何和语义 的可行驶区域路面;Queryable Outputs 给予 Volume Outputs,用于获取更高 分辨率的连续体素语义、占用率、占用流信息,打破了模型分辨率的限制。

决策规划:引入 Interactive Planning 概念,高效应对复杂的自动驾驶情景

传统轨迹搜索型路径规划耗时较长,难以应对复杂交通环境。特斯拉 2022 年 AI Day 分享了自动驾驶系统可能遇到的较为复杂的交通情景:拥堵十字 路口,前方道路有行人横穿和行车占道通行的情况下,车辆要求进行无保护 左转。传统自动驾驶系统会基于各个轨迹的成本以及约束进行路径规划,让 本车以及其他交通参与者的运动轨迹进行交互,对当前场景下所有交通参与 者进行运动轨迹预测,运算过程大概耗时 10ms。但是在上述描述的拥堵路 口情境下,会有超过 20 个交互相关的交通参与者,有超过 100 种交互相关 组合。传统的基于轨迹搜索的路径规划算法存在搜索空间过大,耗时较长的 弊端,难以应对复杂环境。

Interaction Search 基于交互树架构,有效发现各种交互情形找到最优解。 Interaction Search 采用交互搜寻算法,分为五个步骤寻找最优结果。1)视觉 环境识别:采用稀疏抽取的方法,抽取潜在特征来识别车道、障碍物、移动 物体等交通参与者;2)选定目标候选人:确定车道线,非结构化区域来形 成可通行的空间信息;3)产生可能的轨迹:通过轨迹优化,神经元规划生 成运动轨迹;4)产生运动方案并确定行车轨迹的时间及速度:例如此处需 要决定强行插入车流还是等待行人及车流通过;5)输出规划轨迹:当确定好运动方案时候,还需要考虑运动轨迹下的其他车辆通行情况,多种考虑之 后输出运动规划。针对架构中的每一个节点,特斯拉引入 Lightweight Queryable Networks 轻量化可查询的神经元算法,该算法可以查找基于人类 驾驶方法场景库以及线下虚拟仿真运算出的结论,也就是查找参考库已有方 案,可以在大约 100us 内来生成一种轨迹,进一步加速系统在复杂交通环境 下的处理速度。

矢量地图:引入 Lanes Neural Network,预测车道拓扑连接关系高效进行轨 迹规划

三大板块构建高精度矢量地图,助力高效轨迹规划。Lane Network 主要由 三个算法模块构成。1)视觉模块(Vision Component):采取前文介绍过的 BEV+Transformer+Occupancy Network 架构,生成三维地图信息供后两模块 构造矢量地图;2)地图模块(Map Component):使用导航地图中的几何 及拓扑关系,车道等级、数量、宽度、属性信息,将这些信息与 Occupancy Network 数据进行整合,生成 Dense World Tensor,随后作为输入传入拓扑关系建立模块,将视频流稠密的特征解析出稀疏的道路拓扑信 息;3)地图语言模块(Language Component):把车道相关信息包括车道 节点位置、属性(起点,中间点,终点等)、分叉点、汇合点,以及车道样 条曲线几何参数进行编码,生成类似语言模型中单词 token 的编码,然后 利用时序处理办法进行处理。最后生成如下图所示的稀疏的全局道路拓扑 信息,仅包含蓝色的车道中心线和一些白色的关键节点(连接点 connection,分叉点 fork,并道点 merge),并通过图的形式来展现节点之间 的连接关系。

仿真:创造自动驾驶场景,保障自动驾驶算法测试

仿真环境为自动驾驶测试关键一环。自动驾驶仿真是将真实路段的信息通过 场景建模或数字孪生的方式在虚拟环境里实现,在此基础上生成各式各样的 交通流,产生大量的混合式仿真数据以及自动生成的标注真值,提供给自动 驾驶模型进行训练和测试,提高模型的泛化性。据统计,自动驾驶测试中有 90%的场景通过仿真平台来完成,仿真测试为检测自动驾驶模型的关键一环。

特斯拉 Simulation World Creator,高效构建自动驾驶仿真虚拟环境。在掌 握大量自动标注的真实世界道路信息,和丰富的图形素材库后,特斯拉采取 以下五个步骤完成对虚拟仿真测试环境的构建。1)路面生成:根据路沿进 行路面的填充,包括路面坡度、材料等细节信息;2)车道线生成:将车道 线信息在路面上进行绘制;3)植物和楼房生成:在路间和路旁随机生成和 渲染植物和房屋,仿真真实世界中物体引起的遮挡效应;4)其他道路元素 生成:如信号灯,路牌,并导入车道和连接关系;5)加入车辆和行人等动 态元素。对于一个复杂的路口,利用传统建模渲染的方案需要设计师 2 周的 时间。作为自动驾驶仿真方面的领头羊,特斯拉通过 AI 化的方案,只需要 5 分钟即可完成该场景的构建。

数据:加速建造自研超算中心,高效处理自动驾驶数据流

Dojo 超算正式投产,强大算力为自动驾驶训练保驾护航。自动驾驶算法的演进需要对海量数据进行分析及不同方案的神经网络进行测试,强大的算力 是算法研发效率的重要保障。Dojo 架构方面,当车辆捕获视觉数据时,Dojo 能够将图像数据逐帧转换为 3D 视频动画。这使得神经网络能够拥有完整的 数据序列,包括向前和向后查看不同动画帧的能力,使 Dojo 能够对神经网 络进行自我监督训练。例如,神经网络可以在视觉数据的第一帧中进行预测, 然后在第 20 帧中自检其预测。这个过程可以在所有收集的视觉数据中重复 多次,从而显著提高学习速度;Dojo 算力方面,在特斯拉 AI Day 2022 公布 的数据中,与英伟达的 A100 相比,一颗 D1 芯片在配合特斯拉自研编译器 的情况下,在自动标注任务中最高能够实现 3.2 倍的计算性能,在占用网络 任务中最高能够实现 4.4 倍的计算性能。

参考报告

自动驾驶行业专题报告:智驾发展方向确立,激发配套软硬件需求.pdf

自动驾驶行业专题报告:智驾发展方向确立,激发配套软硬件需求。特斯拉向员工推出FSDV12最新版本,小鹏、华为等国内厂商不断进展。BEV+Transformer架构成为行业主流,对智驾系统软硬件提出更高要求。特斯拉:FSDV12开创端到端AI自动驾驶系统先河。特斯拉是全球自动驾驶行业中的领头羊,算法持续优化+配套设施升级,已经形成完善的算法训练体系。算法方面,特斯拉在感知层引入占用网络概念,进一步升级BEV体系;在决策层引入InteractivePlanning概念,高效应对复杂的自动驾驶情景。配套设施方面,特斯拉构建出完整高效的仿真体系及自研超算中心,能够高效处理自动驾驶数据流,为其自动驾驶发...

查看详情
相关报告
我来回答