数据、算力、算法既是端到端落地驱动力,也是落地挑战。
1.数据挑战:获取成本和难度较高,特斯拉目前处于领先
端到端自动驾驶及用途神经网络实现数据驱动,因此用于训练的数据要求越来越高。端到端对 训练数据的要求主要体现在数据量、数据标注、数据质量和数据分布等方面4。
分车企看,特斯拉在数据规模层面处于领先地位。与大语言模型可以在互联网上爬取海量文字 数据用于训练不同,端到端智驾需要的视频数据获取成本和难度较高。对于车企而言,我们认 为决定自动驾驶训练数据的重要因素包括目前能够稳定收集数据的车辆总数、以及车企智驾车 型比例,这与车企自研实力、综合产品力、资金投入、智驾车型销量息息相关。 根据车企公布的数据,截至 2023 年年初,特斯拉 FSD 在北美的累计测试车辆数在 40 万辆左右,到今年 3 月,已经达到 180 万辆。据华为预计,截至 2024 年底,搭载华为智驾系统车型 保有量将突破 50 万台。截至 2024 年 7 月份,理想累计交付超过 87 万辆,其中有 99%的用户 使用过辅助驾驶。截止 2024 年 7 月份,蔚来智能驾驶总用户数达 55.8 万人,NOP+总用户数 达 30.8 万人。2024 年上半年,小鹏 XNGP 的智能导航辅助驾驶的用户渗透率达到了 95.87%。
对于智驾供应商而言,数据获取难度会更大。此前国内上海 AI lab 浦驾团队搜罗了整个 Youtube, 才最终搭建了一个 2000 小时的数据集 OpenDV-2K。在 2023 年特斯拉端到端神经网络开发之 初,就投喂了 1000 万个经过筛选的人类驾驶视频片段,即使以每段 15 秒计,这也是超过 4 万 小时的高清视频。
2.算力挑战:算力竞争重点由车端转向云端,算力需求水涨船高
端到端与 ChatGPT 等生成式大语言模型类似,除了海量高质量数据之外,还需要强大的算力 来支撑模型的训练。过去几年,以英伟达、地平线、Mobileye 等为代表的车端算力芯片受到行 业高度关注。随着汽车智能化的竞争重点从算法转向数据和算力,云端算力或将成为车企未来 几年竞争的关键。 算力即计算的能力,狭义定义是一台计算机理论上具备的最大每秒浮点运算次数(FLOPS)。 广义定义是计算机设备或计算/数据中心处理信息的能力,是计算机硬件和软件配合共同执行某 种计算需求的能力。除了运算能力之外,还包括数据存储与访问能力、与外界的数据交换能力、 数据显示能力等。 算力的基础是各类高性能计算芯片。计算芯片主要包括 CPU(中央处理器)和 GPU(图形处 理器)。CPU 是计算设备的运算和控制核心,适合处理逻辑复杂的串行任务。GPU 早期主要 用来加速图像计算任务,由于其更加侧重计算而非逻辑控制,并能很好地支持并行计算,成为 目前提供算力的主要芯片。因此目前大算力 GPU(英伟达 H100、H800、A100、A800 等)的 储备情况往往成为衡量训练算力资源的重要依据。
国内、厂商与特斯拉超算中心的算力水平差距较大,另外还有 GPU 采购的难题。大部分研发 端到端自动驾驶的公司目前的训练算力规模在千卡级别,国内算力布局领先的车企与供应商包 括商汤、华为、理想、小鹏等。特斯拉近年来不断增加训练算力投入,2024Q1 财报电话会上 特斯拉表示,公司已经有 35000 张 H100GPU,并计划在 2024 年内增加到 85000 张 H100 以 上,届时总算力有望达到 100EFLOPS。此前,特斯拉还部署了规模更大的 A100GPU 训练集 群,其实际训练算力投入在自动驾驶行业中大幅领先其他参与者5。 我们认为当算法层面逐渐收敛至“端到端”,数据+算力将成为核心竞争要素,以特斯拉、华 为、理想为代表的智能驾驶与整车交付领先以及算力储备领先企业有望“强者愈强”。

车端算力或并非端到端落地的主要矛盾。首先,目前以英伟达 Orin 为代表的大算力车载芯片 已经支持 BEV+Transformer 模型的部署,并且架构从传统模块化到端到端后,总代码数量会 显著降低,因此端到端带来的车端算力需求相比 BEV 模型并不一定会有显著的提升,更多的 需求可能来自模型参数量和模型性能的提升。其次,高算力芯片与算法一直处于动态演化的过 程中,相比于对更大算力的需求,基于现有算力芯片优化端到端模型实现更高效部署可能是更 容易实现的方案。目前行业头部竞争者如英伟达、华为、地平线、蔚来、Momenta 都在逐渐走 向软硬一体,针对自研模型定制化开发更匹配的计算芯片,可以做到最大程度的优化6。
3. 算法挑战:黑盒算法局限性、验证测试与世界模型
3.1 黑盒算法局限性:不可解释性、灾难性遗忘等问题易造成端到端算法上限高、下限低
端到端的“黑盒”属性导致其具有不可解释性。可解释性在自动驾驶中很重要,它有利于工程 测试和系统改进,还能从社会角度提供性能安全保证,增加民众对自动驾驶的接受度。但神经 网络的先天缺点是不可解释性,也叫“黑盒”属性。通俗理解就是向神经网络输入数据并得出 正确的计算结果,但我们并不知道结果是如何计算出来的。神经网络的“黑盒”属性会对智驾 的安全性带来影响。根据 Li Chen 等发表的论文《End-to-end Autonomous Driving: Challenges and Frontiers》,可以通过多种方式增强模型设计的可解释性。
在已公布的解决方案中,华为和小鹏采用了模块化端到端的渐进式路线:模块间有人类定义的 接口,便于人类解读中间结果,并检查、定位问题,并且串联两个较小的模型可以使得训练难 度更低、消耗算力更小,落地时间更快。
理想通过并联一个 22 亿参数规模的 VLM(Vision-Language Model,视觉语言模型)大模型 解决可解释性差的问题:VLM 模型对复杂交通场景、交通文字标识有更强的理解力,能够为端 到端模型的驾驶决策提供参考,提升智驾系统的表现。
端到端算法还存在灾难性遗忘的问题。灾难性遗忘是神经网络固有的局限性,主要是指系统在 引入新数据时突然忘记以前学到的信息。主要原因是训练期间引入新任务,神经网络调整其参 数或权重以适应新任务,导致覆盖从之前任务中获得的知识。日前马斯克在推特上解释了 FSD V12.4.2 推迟的原因,该版本投喂了大量需要接管的复杂场景数据进行训练优化,但在简单场 景的驾驶平顺性反而倒退了。针对这种情况,需要对神经网络采取一些权重固化措施后重新训 练。
3.2 验证测试:端到端验证测试尚不成熟
经典的自动驾驶架构验证环节已较为成熟。感知算法使用回灌数据进行离线开环测试,规控算法基于模拟器进行闭环测试验证7。端到端自动驾驶系统测试有两种方法:①仿真环境中的在线 /闭环测试;②人类驾驶数据集的离线/开环测试。 在线/闭环测试需要构建一个模仿真实驾驶环境的模拟环境,在模拟环境中部署测试系统并测 试端到端性能,目的是缩小算法训练与实际应用之间的差距。此类测试一般涉及三个主要子任 务:参数初始化、交通仿真和传感器仿真。在线/闭环评估的优点在于可以对初始环境参数、交 通状况、传感器数据等实现高度控制,缺点包括①大多数数据样本是常见驾驶场景,而长尾场 景和异常驾驶场景数据几乎无法获取;②数据自动标注方法需要更加准确高效;③为解决城市 某些场景下性能不佳的问题,需要提升场景数据挖掘和场景理解能力。(资料来源:Li Chen 等 《End-to-end Autonomous Driving: Challenges and Frontiers》,Lincan Li 等《Data-Centric Evolution in Autonomous Driving: A Comprehensive Survey of BigData System, Data Mining, and Closed-Loop Technologies》) 离线/开环测试根据预先记录的人类驾驶行为来评估系统的性能,通过将系统预测的未来轨迹 与人类驾驶数据中的轨迹进行比较来衡量性能。目前主流的离线数据集包括 nuScenes、 Argoverse、Waymo 和 nuPlan,所有这些数据集都包含来自现实世界驾驶环境的大量带注释 的轨迹。开环评估的优点是基于真实的交通和传感器数据,测试易于实现。缺点包括①静态数 据集中学习的行为可能无法转化为现实世界驾驶场景的动态特性;②测试过程驾驶系统可能会 偏离人类的驾驶数据,因此必须验证系统从这种偏离中恢复的能力。
3.3 世界模型:重建真实世界的重要工具,亦存在端到端算法的问题
世界模型的概念是指能够学习及揭示真实世界物理及数学定律的模型8,具备对信息的全景理解力,在想象的维度理解物理规律,并重建世界。简单来说,就是通过构建人类大脑的复杂认 知过程,模拟人类感知和决策过程,为自动驾驶系统提供预测和适应动态环境的能力。 通过世界模型重构世界,智能驾驶算法的空间理解能力有了进一步升级。智能驾驶的感知算法 经历了 2D/3D 检测-BEV 算法-占用网络 OCC 算法的迭代。2020 年之前感知算法只能进行 2D/3D 检测,即分辨特定对象、确认三维空间位置,并提取车道线。2022 年,智能驾驶感知算 法普遍升级到 BEV 算法,将所有摄像头的信息聚合到一个环境中,通过一张鸟瞰图俯瞰周边, 动态感知更精准。但是,BEV 算法的框架还是基于二维,缺乏高度信息导致无法感知异形物体。 2023 年开始,行业开始引入占用网络 OCC 算法,对环境的感知升级为三维。但 OCC 的感知, 缺失表面材质信息,对细小物体等不确定性的描述不足。 世界模型在智能驾驶场景中的主要能力在于:①还原真实的物理世界,以及动态物体和静态物 体之间的关系,符合大家对于真实场景的认知;②场景更加丰富,视频生成软件给出的视频只 有简单的一个运镜,场景相对简单,世界模型可以生成丰富度更高的视频场景;③能在短时间 内推演出多种可能发生的轨迹并寻找最佳决策,得到驾驶的最优解。基于世界模型,智驾模型 在感知端的时空理解能力、环境想象的真实度与丰富度会有明显提升,并且进一步具备了路径 规划与最佳路径选择能力。
在端到端概念中,世界模型具有两个作用:①根据外部输入生成视频,可以作为端到端模型训 练的数据源:通过世界模型生成的数据可以覆盖大量极端工况(如车祸或长尾的障碍物等), 并且在线生成的数据具有成本优势。②对世界模型进行微小的调整或者增加一些输出链路及模 块,就可以实现 One Model 端到端自动驾驶:世界模型本身具备理解周围环境以及预测交通 参与者行为的能力,同时也具备推理和理解的能力基础,所以它有能力基于所有已掌握信息进 行推理和最佳决策及规划。因此只要对世界模型进行微小的调整或者增加一些输出链路及模块, 就可以很快实现端到端自动驾驶。但同时因为世界模型基于端到端概念,其也具有黑盒算法带 来的不可解释性等问题9。