2024年自动驾驶行业专题报告:智驾发展方向确立,激发配套软硬件需求

  • 来源:国泰君安证券
  • 发布时间:2024/11/28
  • 浏览次数:1833
  • 举报
相关深度报告REPORTS

自动驾驶行业专题报告:智驾发展方向确立,激发配套软硬件需求.pdf

自动驾驶行业专题报告:智驾发展方向确立,激发配套软硬件需求。特斯拉向员工推出FSDV12最新版本,小鹏、华为等国内厂商不断进展。BEV+Transformer架构成为行业主流,对智驾系统软硬件提出更高要求。特斯拉:FSDV12开创端到端AI自动驾驶系统先河。特斯拉是全球自动驾驶行业中的领头羊,算法持续优化+配套设施升级,已经形成完善的算法训练体系。算法方面,特斯拉在感知层引入占用网络概念,进一步升级BEV体系;在决策层引入InteractivePlanning概念,高效应对复杂的自动驾驶情景。配套设施方面,特斯拉构建出完整高效的仿真体系及自研超算中心,能够高效处理自动驾驶数据流,为其自动驾驶发...

1 特斯拉:全球自动驾驶领域领先企业,FSD V12 开创 端到端 AI 自动驾驶系统先河

1.1. 发展过程:第一性原理贯穿发展历程,自动驾驶系统持续迭 代升级

特斯拉自动驾驶发展持续强调“第一性原理”,聚焦发展纯视觉自动驾驶。 第一性原理是指回归事物最基本的条件,从问题最核心的部分开始推理,从 而找到解决问题的最佳方案。特斯拉认为唯一能出色完成驾驶任务的是人脑, 同时人类在驾驶时接受到的绝大部分信息来自视觉。因此,根据第一性原理, 马斯克认为解决自动驾驶的问题本质上是打造模仿人脑工作的自动驾驶系 统,不断发展纯视觉的感知路线,使算法运行更趋向于理解真实世界。 特斯拉自动驾驶系统历经四阶段重要迭代,自主研发能力持续提升。早期特 斯拉自动驾驶系统由外部供应商 Mobileye 提供,2016 年双方终止合作后, 特斯拉开始展开全栈自动驾驶算法自研,2020 年重构算法后,逐渐确立行 业领头羊位置。特斯拉自动驾驶算法及硬件主要经历了以下四个个阶段的迭 代发展:

第一阶段(2016 年前):自动驾驶自研尚未成型,依靠 Mobileye 公司技术 发布第一代自动驾驶系统。2014 年 10 月,特斯拉发布第一代 Autopilot,搭 载硬件 Hardware 1.0,自动驾驶系统软硬件均由 Mobileye 公司提供。2015 年,特斯拉开始布局自研自动驾驶软硬件,创建软件算法小组 Vision。 Mobileye 采用全封闭的"黑盒"策略来提供其软硬件系统,灵活度较低,难以 跟上特斯拉产品发展步伐,合作模式存在潜在弊端。2016 年 5 月,一辆在 Autopilot 状态下的 Model S 意外撞上垂直方向驶来的白色挂车,导致一人死 亡。2016 年 7 月,在事故的间接影响下,特斯拉与 Mobileye 终止合作,开 启自研之路。

第二阶段(2016 年-2018 年):开启全栈自研自动驾驶算法时代,具备开发 传统自动驾驶算法能力。2016 年 10 月,特斯拉发布 Hardware 2.0,搭载由 英伟达提供的自动驾驶芯片,受限于软件算法,特斯拉自动驾驶能力与 Mobileye 仍具有较大差距。特斯拉采取自动驾驶目标检测较为传统的通用 网络结构,首先通过主干网络 backbone 识别图像中的多个对象,再通过 neck 对更为精细的特征进行提取,最后通过 head 层提供检测对象,实例分割等 功能。较为传统及原始的自动驾驶神经网络通常只有一个 head 层,无法高 效完成自动驾驶场景中同时出现的多项任务。为解决此效率问题,特斯拉开 始对自动驾驶算法进行革新,聚焦自动驾驶网络结构及效率。

第三阶段(2018 年-2019 年):构建多任务学习神经网络架构 HydraNet,算 法,特斯拉自动驾驶算法逐步崭露头角。2019 年 4 月,特斯拉发布 Hardware 3.0 系统,首次搭载特斯拉自研 FSD 芯片,算力达 72TOPS,远超同时期市 面上的自动驾驶芯片。特斯拉整体自动驾驶的物体识别算法仍保持之前的 Head 层、Neck 层、及 Backbone 层架构。Head 层方面,特斯拉首次引入 HydraNet 概念,它允许系统不同任务之间共享特征,从而减少系统所需的卷 积计算量,并最小化所需的主干网络数量,此外,HydraNets 还将每个任务 从中央主干网络中独立出来,开发者可以对每个任务进行独立的微调;Neck 层方面,特斯拉引入 BiFPN 特征提取网络概念,BiFPN 用于结合不同尺寸 及分辨率的图像特征,在不同的尺寸上分别创建多个特征金字塔,然后将基 础结构进行多层堆叠,融合出更高纬度的特征,可以精准识别不同清晰度的图像;Backbone 层方面,特斯拉引入 RegNet 概念,相比于 ResNet 进行了 更高一层的抽象,可以创建新颖的设计空间范式,能够发掘更多的场景适配 新的"ResNet",从而避免专门去研究设计神经网络架构。特斯拉自主研发的 自动驾驶算法在硬件及软件端均取得进展,为第四阶段发展奠定了坚实基础。

第四阶段(2020 年-2021 年):特斯拉自动驾驶系统完成重构,引入 BEV+Transformer 核心架构、特征级多传感器融合、数据自动标注等多个 众多自动驾驶方案提供商至今仍在使用的核心技术,特斯拉登上自动驾驶 行业龙头位置。

1)BEV+Transformer 核心架构:过去自动驾驶系统主要依靠摄像头采集到 的 2D 图像数据,难以完美记录真实的三维世界信息。特斯拉引入 BEV 鸟 瞰图视角,将不同视角的图像信息统一成一个鸟瞰俯视图,有利于后续自动 驾驶规划控制模块任务;同时,BEV 视角有效解决了图像视角下的尺度和 遮挡问题。为实现 BEV 视角,特斯拉特斯拉引入大模型 Transformer,进行 3D 到 2D 的逆向开发。其中 Transformer 是一种基于注意力机制(Attention) 的神经网络模型,与传统的神经网络如 RNN 和 CNN 不同,Transformer 是 通过注意力机制来探索序列中不同元素间的相关性,使得 Transformer 可以 适应不同长度和不同结构的输入数据。特斯拉先在 BEV 空间层中初始化特 征,再通过多层的 Transformer 和 2D 图像特征进行交互融合,最终得到 BEV 特征。

2)特征级多传感器融合技术:自动驾驶系统依靠多个传感器对周围世界进 行感知,多传感器融合利用不同的传感器的优势弥补其他传感器的弱势,从 而实现对现实世界更准确的感知。为改善后融合策略易产生的信息失真劣势, 特斯拉引入特征级融合,先从每个传感器提供的原始观测数据中提取代表性 的特征,再对这些特征进行融合,得到总的特征向量,可以更好地保留传感 器收集到的原始数据,从而为后续规划提供支持。

3)数据自动标注技术:过去特斯拉采用自建的人工标注团队进行数据标注, 由于自动驾驶数据不断扩大,所需标注人员数量也进一步增长,导致了成本 不断攀升。为解决人工标注高成本低效率的弊端,特斯拉引入了数据自动标 注系统。车辆采集数据以 Clip 作为最小标注单元,一个 Clip 中包含视频、 惯性测量单元(IMU)、GPS、里程计(odometry)等其他数据。在车辆行驶 过程中,摄像头对路面信息进行采集,打包上传到服务器的离线神经网络大 模型,由大模型进行预测性标注,再反馈给车端各个传感器。由于传感器视角不同,当预测的标注结果在特斯拉使用的 8 个传感器均呈现一致时,则这 一标注成功。针对训练自动标注 AI,特斯拉会从自身的工程车(Engineering Cars)和客户车(Customer Cars)中获取 Clip 数据,使用手动标记来训练校 准自动标记人工智能神经网络。

1.2. 特斯拉自动驾驶进展:算法持续优化+配套设施升级,形成完 善算法训练体系

特斯拉不断优化自动驾驶算法自身,同时注重配套设施升级。特斯拉在 2022 年 AI Day 中公布其自动驾驶最新进展,自动算法方面,首次公布了特斯拉 在感知、决策规划、矢量地图方面的进展;配套设施方面,特斯拉介绍了其 用于自动驾驶算法训练的模拟仿真技术与自建的超算中心。自动驾驶算法优 化及配套设施升级两大方面齐头并进,为特斯拉自动驾驶算法持续发展迭代 提供了保障。

感知:引入 Occupancy Network 概念,进一步升级 BEV 体系

丰富自动驾驶面临的 3D 场景信息,准确识别任意形状障碍物。占用网络 (Occupancy Network)在 BEV 网络在高度方向进行了进一步扩展,将 BEV 坐标系下 2D 栅格位置编码生成的 Query 升级为 3D 栅格位置编码生成的 Query,将现实世界划分成一系列 3D 网格单元(也称为体素),每个单元对 空间中检测到的障碍物的被占用概率及未来运动轨迹进行预测。基于视觉的 占用网络相比于传统的雷达优势较为明显:占用网络可以对每个体素生成对 应的语义类别,图像识别能力较强;占用网络可以在 10ms 内完成计算,处 理频率高于雷达。同时,占用模型可以对不同形状的障碍物(甚至是障碍物 的某一部分)的运动轨迹进行预测。在演示中,有一辆公交车在特斯拉前方。 在矢量空间中,公交车的前部变成蓝色,表示模型预测它将首先移动;公交 车的后部仍然是红色,表示尚未预测到它会移动。

使用 8 颗摄像头进行图像采集,五阶段算法工作流高效产出空间建模。第一 阶段图像输入(Image Input),特斯拉使用车辆四周安装的 8 个摄像头来创 建三维矢量空间;第二阶段图像特征化(Image Featurizers),特斯拉维持了 与之前类似的 Head 层、Neck 层、及 Backbone 层物体识别的架构,采用 RegNet 及 BiFPNS 算法来特征化图像;第三阶段空间注意力构建(Spatial Attention),特斯拉使用了多摄像头查询(Mlticam Qurey Emdedding)及空间 查询(Spatial Query),利用特征的空间关系生成空间注意力图;第四阶段特 征对齐(TemporalAlignment)将不同时序的特征,对齐后进行融合;第五阶 段为输出阶段,进行去卷积(Deconvolutions)后,浓缩的特征数据被反向成 物体信息,根据不同需求输出三种不同的 Outputs:Volume Outputs 为输出 固定大小栅格的占用率和占用流;Surface Outputs 输出具有三维几何和语义 的可行驶区域路面;Queryable Outputs 给予 Volume Outputs,用于获取更高 分辨率的连续体素语义、占用率、占用流信息,打破了模型分辨率的限制。

决策规划:引入 Interactive Planning 概念,高效应对复杂的自动驾驶情景

传统轨迹搜索型路径规划耗时较长,难以应对复杂交通环境。特斯拉 2022 年 AI Day 分享了自动驾驶系统可能遇到的较为复杂的交通情景:拥堵十字 路口,前方道路有行人横穿和行车占道通行的情况下,车辆要求进行无保护 左转。传统自动驾驶系统会基于各个轨迹的成本以及约束进行路径规划,让 本车以及其他交通参与者的运动轨迹进行交互,对当前场景下所有交通参与 者进行运动轨迹预测,运算过程大概耗时 10ms。但是在上述描述的拥堵路 口情境下,会有超过 20 个交互相关的交通参与者,有超过 100 种交互相关 组合。传统的基于轨迹搜索的路径规划算法存在搜索空间过大,耗时较长的 弊端,难以应对复杂环境。

Interaction Search 基于交互树架构,有效发现各种交互情形找到最优解。 Interaction Search 采用交互搜寻算法,分为五个步骤寻找最优结果。1)视觉 环境识别:采用稀疏抽取的方法,抽取潜在特征来识别车道、障碍物、移动 物体等交通参与者;2)选定目标候选人:确定车道线,非结构化区域来形 成可通行的空间信息;3)产生可能的轨迹:通过轨迹优化,神经元规划生 成运动轨迹;4)产生运动方案并确定行车轨迹的时间及速度:例如此处需 要决定强行插入车流还是等待行人及车流通过;5)输出规划轨迹:当确定好运动方案时候,还需要考虑运动轨迹下的其他车辆通行情况,多种考虑之 后输出运动规划。针对架构中的每一个节点,特斯拉引入 Lightweight Queryable Networks 轻量化可查询的神经元算法,该算法可以查找基于人类 驾驶方法场景库以及线下虚拟仿真运算出的结论,也就是查找参考库已有方 案,可以在大约 100us 内来生成一种轨迹,进一步加速系统在复杂交通环境 下的处理速度。

矢量地图:引入 Lanes Neural Network,预测车道拓扑连接关系高效进行轨 迹规划

三大板块构建高精度矢量地图,助力高效轨迹规划。Lane Network 主要由 三个算法模块构成。1)视觉模块(Vision Component):采取前文介绍过的 BEV+Transformer+Occupancy Network 架构,生成三维地图信息供后两模块 构造矢量地图;2)地图模块(Map Component):使用导航地图中的几何 及拓扑关系,车道等级、数量、宽度、属性信息,将这些信息与 Occupancy Network 数据进行整合,生成 Dense World Tensor,随后作为输入传入拓扑关系建立模块,将视频流稠密的特征解析出稀疏的道路拓扑信 息;3)地图语言模块(Language Component):把车道相关信息包括车道 节点位置、属性(起点,中间点,终点等)、分叉点、汇合点,以及车道样 条曲线几何参数进行编码,生成类似语言模型中单词 token 的编码,然后 利用时序处理办法进行处理。最后生成如下图所示的稀疏的全局道路拓扑 信息,仅包含蓝色的车道中心线和一些白色的关键节点(连接点 connection,分叉点 fork,并道点 merge),并通过图的形式来展现节点之间 的连接关系。

仿真:创造自动驾驶场景,保障自动驾驶算法测试

仿真环境为自动驾驶测试关键一环。自动驾驶仿真是将真实路段的信息通过 场景建模或数字孪生的方式在虚拟环境里实现,在此基础上生成各式各样的 交通流,产生大量的混合式仿真数据以及自动生成的标注真值,提供给自动 驾驶模型进行训练和测试,提高模型的泛化性。据统计,自动驾驶测试中有 90%的场景通过仿真平台来完成,仿真测试为检测自动驾驶模型的关键一环。

特斯拉 Simulation World Creator,高效构建自动驾驶仿真虚拟环境。在掌 握大量自动标注的真实世界道路信息,和丰富的图形素材库后,特斯拉采取 以下五个步骤完成对虚拟仿真测试环境的构建。1)路面生成:根据路沿进 行路面的填充,包括路面坡度、材料等细节信息;2)车道线生成:将车道 线信息在路面上进行绘制;3)植物和楼房生成:在路间和路旁随机生成和 渲染植物和房屋,仿真真实世界中物体引起的遮挡效应;4)其他道路元素 生成:如信号灯,路牌,并导入车道和连接关系;5)加入车辆和行人等动 态元素。对于一个复杂的路口,利用传统建模渲染的方案需要设计师 2 周的 时间。作为自动驾驶仿真方面的领头羊,特斯拉通过 AI 化的方案,只需要 5 分钟即可完成该场景的构建。

数据:加速建造自研超算中心,高效处理自动驾驶数据流

Dojo 超算正式投产,强大算力为自动驾驶训练保驾护航。自动驾驶算法的演进需要对海量数据进行分析及不同方案的神经网络进行测试,强大的算力 是算法研发效率的重要保障。Dojo 架构方面,当车辆捕获视觉数据时,Dojo 能够将图像数据逐帧转换为 3D 视频动画。这使得神经网络能够拥有完整的 数据序列,包括向前和向后查看不同动画帧的能力,使 Dojo 能够对神经网 络进行自我监督训练。例如,神经网络可以在视觉数据的第一帧中进行预测, 然后在第 20 帧中自检其预测。这个过程可以在所有收集的视觉数据中重复 多次,从而显著提高学习速度;Dojo 算力方面,在特斯拉 AI Day 2022 公布 的数据中,与英伟达的 A100 相比,一颗 D1 芯片在配合特斯拉自研编译器 的情况下,在自动标注任务中最高能够实现 3.2 倍的计算性能,在占用网络 任务中最高能够实现 4.4 倍的计算性能。

1.3. FSD 最新进展:2025 年有望逐步落地

2024 年,特斯拉再度推动自动驾驶技术进入新阶段,推出了 FSD V12 版本。 这一版本的发布标志着特斯拉自动驾驶从传统的模块化功能迈向了“端到端” 一体化的系统管理。现在,自动驾驶的每一个步骤——从环境感知、决策制 定到车辆操控——都由一个高度集成的网络系统协调完成,使得整体的安全 性和可靠性有了显著提升。 这次技术升级不仅展示了特斯拉在自动驾驶领域的持续创新能力,更为未来 智能交通的可能性拓宽了路径。从 2016 年起步探索到 2024 年的全面升级, 特斯拉 FSD 的进化过程记录了自动驾驶技术从构想到实践的关键历程。特 斯拉的努力不仅推动了自身技术的成熟发展,还带动了整个汽车行业向更智 能、安全和便捷的出行方式不断迈进。

FSD V12 采用的是端到端的大模型技术,改变传统的自动驾驶系统架构。 从技术方面来看,特斯拉 FSD V12 版本采用的是端到端的大模型技术,一 端输入环境图像的像素点,在通过神经网络大模型后,在另一端直接输出控 制指令。用马斯克直播中的话说就是“光子进,行为出”,几乎接近人类驾 驶的思维方式。现在的 FSD Beta V11.4.4 版本,在控制栈中有超过 30 万行 C++代码,主要决策逻辑仍然是基于代码描述的规则进行逻辑判断,而特斯 拉 FSD V12 系统内部没有任何条件判断代码,其处理复杂交通环境的能力 来自于大量的数据训练,使其形成了类似人类驾驶的一样的记忆与习惯。从 硬件方面来看,特斯拉 FSD V12 采用 8 个摄像头,以每秒 36 帧的速度进行 拍摄,系统的计算速度可以达到每秒 50 帧,而实际路况只需要每秒 24 帧便 可以正常运行 FSD V12。目前无论是摄像头帧率还是系统计算速度,在实际 运行过程中都是足以应对各种路况的。另外,马斯克在直播提到,特斯拉 FSD V12 可以离线运行。如果行驶过程中有人工干预行为发生,系统会将其记录 并上传至云系统进行分析。

2. 小鹏:国内高级智驾龙头企业,加速轻地图 XNGP 研 发

2.1. 智驾系统:推出最新一代 XNGP,可实现全场景智能辅助驾 驶功能

XNGP 智能辅助驾驶系统更新迭代,“AI 代驾”覆盖全国更多城市。 XNGP(Navigation Guided Pilot)是小鹏最新一代智能辅助驾驶系统,继承 并发展自 XPILOT 系统,可以实现全场景智能辅助驾驶功能。XNGP 可以 提供覆盖整座城市范围的辅助驾驶功能及针对用户通勤和高频路线的“AI 代驾”功能,为用户提供定制化服务。目前 XNGP 已在全国范围内具备支 持城市智驾的技术能力,处于逐步完成测试验证阶段,将按照用户出行范 围和城市群加速开放,2023 年 12 月底覆盖全国 50 座城市。

2.2. 底层技术:XBrain 终极架构有力支持 XNGP,打造完善自动 驾驶感知与规划系统

感知层:引入 XNet2.0 架构,开创行业内首个应用大模型具备时空理解能力 的感知架构。XNet 2.0 运用了大模型技术,并且融合了业内最高精度的纯视 觉占据网络,大模型可以帮助感知系统读懂文字信息、具备时间观念,并能 理解不同城市特点的交通要素;XNet2.0 也实现了动态 BEV、静态 BEV、 占据网络三网合一,将感知范围提升 200%,感知物体类型增加 11 种,具有 强大的时空理解能力。

决策层:引入 XPlanner 架构,完成基于神经网络的精准规划与控制。 XPlanner 具有长时序、多对象、推理的特点:XPlanner 可结合分钟级的时序 信息连续分析外部动态动机,并根据周边完整的环境信息,在视觉受阻等多 种复杂环境下像人脑一样实时变通,生成规划出最佳的运动路线。

研发体系:全栈闭环架构提升智能驾驶数据处理效率,全栈仿真降低 XNGP 边际成本。自动驾驶的数据闭环,是指算法研发由案例驱动转向数据驱动的 核心步骤,是升级迭代纯数据的自动驾驶神经网络的关键步骤。在全栈闭环 架构下,能够最大化数据处理的效率,全闭环处理效率有望提高 150%,同 时城市被动接管次数显著下降 38%。仿真方面,据 2022 年数据,小鹏每改 动一行自动驾驶代码,都需要进行 5000 万公里仿真行驶里程、5000+个核心 场景及 17000+个专项场景的测试。据 2023 年小鹏汽车 1024 科技日数据, 小鹏仿真能力大幅度提升,仿真行驶里程达到 1.22 亿公里,并拥有 12500+ 个核心场景、36000+个专项模拟场景,同时保护程度也提升了 4 倍,仿真及 数据生成成本也将大幅度下降。

3. 华为:坐拥完整智驾开发调试链条,基于 MDC 平台ADS 算法不断创新迭代

3.1. 基于 MDC 平台构建完整开发调试工具链,提升自动驾驶自 主研发效率

MDC 平台可以接收传感器信号处理信息后输出执行,是智能驾驶的大脑。 MDC(Mobile Data Center)移动处理中心是智能驾驶的核心,平台内部统一 一套软件架构,支持应用的快速开发和系统化共享。MDC 平台一共有四个 产品,分别是 MDC 300F、MDC 210、MDC 610、MDC 810。其中 MDC 300F 主要是用在商用车上,另外三个产品主要用于乘用车。

MDC 软硬件架构均为华为自研,内置工具链大幅度提高软件算法研发效率。 MDC 本质上是一块带有系统的主板,结构可被分为硬件和软件两部分。1) 硬件方面,主要包括五大模块。运算模块,CPU 负责通用计算,用来部署后 融合、定位、规控等应用软件算法,GPU 进行图像 CNN 的 AI 计算;数据 交换模块,负责接收外部云端传入的数据及内部数据交换;图像处理模块, 负责将摄像头输出的原始数据处理层 YUV 或 RGB 格式,后交由 GPU 进行 图像运算处理;存储模块,负责进行缓存、存储系统及程序;MCU 模块, 负责输出信息到 CAN 总线进行车辆控制。 2)软件方面,主要分为三个层级。操作软件层(Operation system)与应用 软件层(Applications)概念与常见电脑的操作系统及应用程序的概念类似。 中间件(Middleware)连接操作系统层和应用软件层,将不同操作系统提供 应用的接口标准化,协议统一化,屏蔽具体操作的细节,使应用的开发和运行与操作系统无关,极大程度上减轻了开发者的负担,提升了软件算法的研 发效率。此外,MDC 平台提供完整调试工具,覆盖开发阶段、实验室调试 /路测、主机厂调试、EOL,为算法的创新迭代提供完整高效的开发环境。

3.2. ADS 2.0 再次更新,硬件端不断降本算法端迎来升级

ADS 2.0 自动驾驶系统不断迭代更新,最新系统具有三大亮点。ADS 2.0 高 阶智能驾驶系统在问界 M5 系列智驾版上首次搭载,首波试驾媒体对系统在 上海市区进行实地测试后,给予其很高的评价。随阿维塔 12 于 11 月 10 日 正式上市,ADS 2.0 高阶智能驾驶再迎进化。相比于 ADS 1.0,ADS 2.0 在 感知及算法方面完成升级,具有“看懂物”,“看懂路”及不依赖高清地图也 可以“开得好”三大亮点。

“看”得见物:硬件方面降本增效,多传感器相互配合精确感知。ADS 2.0 在硬件方面进行了精简,减掉了侧向两个激光雷达、前向两个双目摄像头、 三个毫米波雷达,及一块昇腾 610 芯片,把 ADS 所需硬件成本从之前的约10 万元降至 3 万元之内。性能方面,根据问界 M7 官方网站发布的信息, ADS 2.0 硬件下的性能与 ADS 1.0 无任何差异。ADS 2.0 搭载 1 个顶置激光 雷达、3 个毫米波雷达、11 颗高清摄像头以及 12 个超声波雷达,多传感器 相互配合“取长补短”,实现全天候多场景精确感知信号。

“看”得懂物:检测算法方面引入 GOD,精确识别障碍物。在融合 BEV 鸟 瞰图感知能力基础上,华为首创 GOD 网络(General Objective Detection 通 用障碍物检测),可以识别通用障碍物白名单外的异形物体,障碍物种类精 细识别(如区分救护车、警车等),识别率高达 99.9%。算法架构方面,华为 GOD 采取类似特斯拉占用网络的思路对障碍物进行感知,使用端到端的风 险区域预测和路径规划,并通过物体检测 OVOD(Open-vocabulary Object detection)检测和识别图像中开放的对象集及其相关属性的任务。对象和属 性是在推理过程中通过文本查询定义的,无需在训练过程中预先了解测试类。

“看”得懂路:路径规划方面引入 RCR 2.0,无论是否有高精度地图都可以 完成自动驾驶任务。RCR 2.0(Road Cognition & Reasoning)实现导航地图 和现实世界的匹配,采用特斯拉类似的视觉算法技术,确定车辆行驶在车道 内,根据人类使用的 SD 导航地图提供的路线信息以及路口视觉感知信息, RCR 来推理路口车道之间的关系,从而实现领航辅助。

4. 自动驾驶趋势:BEV+Transformer 架构成为行业主 流,对自动驾驶软硬件提出更高要求

4.1. 感知层:轻地图,重感知成行业主流方向

自动驾驶数据及算法日趋成熟,逐步减少对高精地图依赖。高精度地图的精 度在厘米级别,一般绝对精度低于 1 米,相对精度在 10-20 厘米,包含驾驶 情景中多层次全方位的信息,如道路形状、方向曲率、坡度、车道线等道路 信息,红绿灯、交通指示牌等交通设施信息,交通拥堵情况、施工情况等动 态交通信息。有了高精度地图,车辆可以提前预知前方的道路信息,高精度 地图中详尽的道路信息也减少了驾驶控制算法的工作量。另一方面,高精地 图的弊端也较为明显:由于构建地图信息收集效率低、成本高等原因,高精 地图覆盖面积有限,无法满足所有城市及道路的用户需求;拥堵程度等动态 交通信息变换较快,传统高精地图无法满足动态图层的更新需求。随着自动驾驶系统算力不断提升,高精地图减少自驾系统工作量的优点逐渐淡化,轻 地图的自动驾驶方式逐渐成为主流。轻地图最核心的逻辑就是把规控制需要 高精道路元素,由加载离线高精地图的方式改变为通过在线感知能力生成。 小鹏、华为、蔚来、理想,地平线、毫末智行等等国内驾驶辅助的头部公司 相继宣布,未来将会采用以车辆自身传感器为主,高精地图为辅的策略继续 发展轻地图重感知的自动驾驶技术。

软件端:特斯拉首创 BEV+Transformer 架构,国内车企加速自研积极跟随。 自动驾驶重感知,轻地图的发展方向已经确立,为高效解决纯视觉方案下多 个摄像头的数据融合问题,特斯拉在 2021 年提出 BEV+Transformer 架构概 念,这套方案将数据整合在BEV鸟瞰视角下,通过基于注意力机制(Attention Mechanism)的神经网络模型 Transformer,灵活高效地感知和处理数据。同 时,国内优秀智能驾驶车企也不断推动自研基于 BEV+Transformer 架构的自 动驾驶方案。

硬件端:车载摄像头成为智能驾驶感知系统的主力传感器,像素水平不断提 升。随着各大车企基于 BEV+Transformer 架构的自动驾驶系统完成上车, BEV 视角展现出纯视觉方案更高的可行性,成像雷达的作用被弱化。国内 车企的主流方案仍是多模态传感器融合,对比于早前发布的车型,摄像头数 量有增加的趋势,目前普遍采用 11-12 个摄像头+12 个超声波雷达+5 个毫米 波雷达+1-3 个激光雷达的感知方案。摄像头像素方面,基于低阶像素(比如, 170 万、260 万像素)的前视摄像头感知方案,在纯视觉的自动驾驶方案蓬 勃发展的背景下略显乏力。800 万像素摄像机已成为高阶自动驾驶系统的标 配,包括理想、蔚来、极氪等头部车企都已经在单车搭载多颗 800 万像素摄像头。据高工智能汽车研究院数据,2023 年 1-6 月中国市场(不含进出口) 乘用车标配 800 万像素前向 ADAS 摄像头交付新车 30.04 万辆,同比增长 233.04%。

4.2. 决策层:自动驾驶算力需求提升,对智驾芯片及配套数据中 心提出新要求

BEV+Transformer 架构上车,对大算力智驾芯片需求增强。大模型上车增 大了智驾芯片需要处理的数据量,BEV 在感知端要求精确的多视角数据融 合,Transformer 在规划端要求大数据进行训练,整体智驾系统需要更高的 算力支持。以小鹏汽车为例,在其辅助驾驶系统 XPilot 的迭代过程中,在 不到十年时间内,所搭载的芯片算力上涨 100 倍。同样,理想汽车也经历 了从 2.5TOPS 到 254TOPS 的算力进化。

AI 大模型卷入自动驾驶,超算中心成为发展自动驾驶算法的标配。随着基 于纯视觉感知的端到端自动驾驶模型逐渐成为行业主流,海量的数据投喂是 训练模型的必然选择。端到端模型的决策是在“黑盒”状态下进行的,通过 赋予数据,使算法积攒“经验”,来实现类似人类的驾驶行为。例如,端到 端的驾驶模型通过摄像头采集到外界的视频数据后,算法直接输出的是方向 盘转角多少度的控制决策,不存在单独的图像识别检测任务。传统的模型训 练流程是通过调整参数对算法结构进行“补丁”式矫正,端到端模型只需要 经过足够的驾驶数据及案例投喂,就可以产生强泛化能力的自动驾驶算法。 为了使大模型成功落地,海量的数据投喂成为厂商的必然选择。为助力海量 的数据标注及仿真训练,特斯拉于 2022 年发布超算中心 Dojo,众多国内厂 商也紧随其后研发推出自己的超算中心。2022 年后,超算中心开始活跃在 自动驾驶领域。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至