特斯拉引领端到端智驾算法迭代,国内参与者多点开花。
1.特斯拉 FSD V12 落地引领端到端变革
特斯拉经历了自研芯片、算法结构、数据标注与融合等方面的升级,逐步向端到端迈进。 硬件层面,特斯拉经历多次迭代升级至 HW4.0,其中传感器硬件通过 7 颗摄像头实现纯视觉路 线;智驾芯片从 HW3.0 开始实现自研,HW4.0 进一步升级,算力达到 720TOPS。

算法结构层面,特斯拉最初与 Mobileye 进行合作,从 2016 年开始自研。2020 年开始实现 BEV+Transformer+占用网络升级,逐步转向大模型时代。2023 年 12 月,FSD V12 测试版亮 相,将城市街道驾驶堆栈升级为经过数百万视频剪辑训练的单一端到端神经网络,取代了超过30 万行显式 C++代码。
自动驾驶软件版本迭代方面,2013 年特斯拉开始 Autopilot 研发,主要功能包括主动巡航控制、 自动辅助转向等;2020 年开始 FSD Beta 开启内测,2023 年 12 月,FSD V12 测试版升级单 一端到端神经网络,2024 年 3 月 FSD Beta 更名为 FSD Supervised(有监督的自动驾驶), 在性能、安全、法规遵从方面持续突破,落地进程有望加速。
特斯拉围绕数据驱动实现了自动驾驶的快速迭代,FSD 有望持续进化。从 Autopilot 到端到端 架构,特斯拉通过影子模式、HydraNet 神经网络架构构建、数据自动标注、算法层面迭代 (BEV+Transformer+占用网络等)、算力储备等布局实现了逐步迭代升级。
从实际体验来看,端到端的 FSD 开起来更加拟人、丝滑。何小鹏在加州体验 FSD 最新版本时 表示,FSD 比他作为加州新手司机开得更好。根据实测视频,面对复杂的施工路段、夜晚临时 路桩、飞扬的纸袋、路过的动物等,特斯拉 FSD 均能做出灵活且准确的反应。根据 Tesla FSD Tracker 统计,FSD V12.3 在城市工况下平均接管里程为 20 英里,平均安全接管里程为 372 英里。 特斯拉或将通过世界模型实现 3D 空间生成。特斯拉 AI 负责人 Ashok Elluswamy 表示特斯拉 正在试图构建一个更加通用的世界模型(General World Model),它能够预测未来并帮助神经 网络自主学习,能够以 AI 的方式生成 3D 空间,并且根据人类的左右转弯等指令,在八个摄像头视角里同时进行一致性非常强的 3D 变换。 特斯拉 FSD 入华限制逐渐解除,与百度地图达成合作。4 月底马斯克抵京当日,特斯拉通过中 国汽车数据安全 4 项全部要求——车外人脸信息等匿名化处理、默认不收集座舱数据、座舱数 据车内处理、处理个人信息显著告知,我们认为在数据层面的限制正逐步解除。4 月 22 日,百 度副总裁尚国斌官宣与特斯拉达成合作,称百度地图真车道级导航将在特斯拉全球首发。7 月 初,特斯拉 Model Y 后轮驱动版进入江苏省政府新能源用车采购目录,上海临港新片区国企也 已采购一批特斯拉 Model Y,各地已陆续解除对特斯拉等智能网联汽车的禁行禁停限制。
在二季度财报电话会议上,马斯克表示特斯拉 FSD 有望在 V12.5 或者 12.6 版本,进入中国、 欧洲,以及其他国家,并在早期推送之后提交给上述国家的监管部门进行审核。马斯克表示 FSD V12.5 的参数量是 V12.4 的五倍,可以实现高速道路和一般道路相统一的高阶智驾解决方案, 按照当前的迭代节奏,我们认为 V12.6 有望在年内推出。根据特斯拉财报,截止二季度末特斯 拉 FSD 累计测试里程已突破 16 亿英里,其中 FSD V12 测试里程已突破 6 亿英里。马斯克表 示他们计划在年内达成一个重要里程碑,即在实际行驶超过十亿英里的过程中,受监管的自动 驾驶系统将比人类驾驶员更为安全。
2. 华为、小鹏、理想等车企与供应商纷纷跟进,技术路线有望向“端到端”收敛
华为 ADS3.0 享界 S9 首发,构建感知、规划控制神经网络实现模块化端到端
华为在 2024 年 4 月推出了新品牌乾崑及其新一代智能驾驶解决方案 ADS 3.0,该方案以 GOD 网络和 PDP 网络为核心,实现端到端的智能驾驶。华为 ADS 3.0 8 月份率先搭载享界 S9 交 付,9 月开始有望依次推送鸿蒙智行其他车型以及 Hi 合作模式车型。
在 ADS 2.0 智驾解决方案中,华为在 BEV 的基础上增加了 GOD+RCR 网络实现“全国都能 开”的无图 NCA 智驾能力。GOD 网络(General Obstacle Detection,通用障碍物检测网络) 可以通过激光雷达+摄像头,来识别通用障碍物白名单外的异形物体,用 3D 像素块来构建出障 碍物的轮廓,对路上的障碍物进行精细识别,障碍物的识别不再存在上限。 RCR 网络(Road Cognition & Reasoning,道路拓扑推理网络)进一步让智驾摆脱高精地图 的依赖,结合普通导航地图来与现实进行匹配和印证,再实时通过传感器来拓扑绘制一幅可用 的行车地图,能够做到具体路况具体分析。
ADS 3.0 升级点主要在于构建了 GOD 感知神经网络+PDP 决策神经网络实现模块化端到端。 在 ADS 3.0 当中,华为将 GOD 和 RCR 都神经网络化,并纳入到一个完整的 GOD 感知神经 网络,规划决策模块构建了 PDP 决策神经网络,实现去 BEV 化。华为还利用自己的云端 AI 训 练平台进行大量的数据训练,让模型得以快速迭代升级。截止目前,华为学习训练的算力已经 从 3.5E FLOPS 更新到 5E FLOPS,模型每天训练的里程数达到了 3500 万公里。 华为还在端到端模型中增加了“本能安全网络”进行下限兜底,增强模型可解释性与稳健性, 避免端到端下限低的问题。
ADS 3.0 升级后体验亮点包括:①享界 S9 泊车代驾正式商用,到达目的地后,人可下车即走, 车辆自主泊入,解决停车找位难、费时间等痛点;②开启条件不挑场景,可以从地库车位、路 边临时停车等等状态下直接起步;③可以自己过闸机、下地库、自主泊车的几个功能无缝衔接, 可实现车位到车位的智驾体验;④特殊场景应对:鬼探头,ADS 3.0 能够及时避让或刹停;对 向来车时会主动博弈避让。
小鹏:组织架构调整,全面投入端到端
小鹏 5 月发布 AI 天玑系统,成为首个落地量产端到端大模型的车企。AI 天玑系统是一个将 AI 技术全面应用于智能座舱与智能驾驶的操作系统,核心功能包括 AI 小 P(升级了 LLM 的 AI 助 理)、AI 司机(包括 AI 代驾、AI 泊车、XNGP 等智能驾驶功能)、AI 保镖(车辆环境的大范 围感知及预警)。此次升级 XNGP 升级了模块化端到端模型,主要由 XNet 感知神经网络、 XPlanner 规划控制大模型以及 XBrain 大语言模型组成。 感知大模型 XNet:聚合动态 XNet、静态 XNet、纯视觉 2K 占用网络,能够让自动驾驶系统对 现实世界中的可通行空间进行 3D 还原,清晰识别静态障碍物细节,感知范围提升 2 倍,面积 有 1.8 个足球场大小,能精准识别 50+个目标物。 大语言模型 XBrain:通过大语言模型网络,提高自动驾驶对复杂甚至未知场景的泛化处理能 力,及对宏观逻辑的推理能力,从而做出兼顾安全及性能的拟人驾驶决策。能够认识待转区、 潮汐车道、特殊车道、路牌文字,理解各种令行禁止、快慢缓急的行为指令。 规控大模型 XPlanner:基于图像数据的感知输入,实现对智驾行驶路径的规划控制。规划大 模型基于数据驱动模式迭代,取代人类手写规则代码,使得驾驶策略向拟人进化,目前在效果 上,前后顿挫减少 50%、违停卡死减少 40%、安全接管减少 60%。
XNGP 于 7 月底升级“全国都好用”,年内实现“门到门”智驾体验。7 月 30 日,小鹏宣布 AI 天玑系统 XOS 5.2.0 版本向全球推送,坚持“每 2 天一次版本迭代,每 2 周一次体验升级”, 在 5 月首次发布后至迭代版本超 35 个。XNGP 最新一轮 OTA 内测中 AI 代驾已实现自动过 ETC,按照规划 2024 年四季度打通全国道路,打通行泊场景,AI 代驾实现车位到车位体验。 按计划,2025 年小鹏现有车型都将开始进行 AI 天玑系统公测,在中国实现类 L4 级智驾体验, 并且目前正在全球范围对 XNGP 端到端的能力进行测试,智驾技术开始走向全球。
在组织架构层面,小鹏自动驾驶部门新设三大 AI 板块,全面推进端到端研发。小鹏自动驾驶 部门新设 AI 模型开发、AI 应用开发、AI 效能开发三大板块,其中 AI 模型开发部门主要负责端 到端模型开发。相较原来由产品研发部、架构、系统开发部等 10 多个部门组成,调整后智驾 团队研发方向更加“精简”,专注于端到端研发。 在投入方面,2024 年,小鹏汽车在研发上将投入 70 亿元。何小鹏透露目前公司已有 7000+张 GPU 卡,小鹏今年将在训练算力上再投入超过 7 亿元。
理想:构建端到端+VLM(视觉语言模型)双系统,进一步提升端到端下限
理想端到端采用了“行业首个双系统量产方案”,双系统包含系统 1:端到端模型,系统 2 : VLM(视觉语言模型)。 系统 1 由一体化端到端实现,具备高效、快速响应能力,能够应对驾驶车辆时 95%的常规场 景。系统 2 是与系统 1 相并联的一个 22 亿参数规模的 VLM(视觉语言模型),具备复杂环境 理解能力、修正导航的能力以及理解交通规则与文字标识的能力,主要应对系统 1 处理不了的 复杂情况,约占日常驾驶场景的 5%。
VLM 本质是一个多模态大模型,可以利用大语言模型的认知能力理解场景,输出另外一条行 驶轨迹给端到端模型参考修正。因为端到端模型的是黑盒算法,对于目标的错检漏检,以及幻 觉问题难以通过直接调参解决,所以理想通过 VLM 以及适当的强化学习手段来规范端到端模 型的行为。
除了双系统之外,理想还在云端部署了重建+生成式世界模型。该模型基于重建和生成两种技 术路径,将真实数据通过 3DGS(3D 高斯溅射)技术进行重建,并使用生成模型补充新视角。 重建+生成的场景为自动驾驶系统能力的学习和测试创造了更优秀的虚拟环境,使系统具备了 高效闭环的迭代能力,保证了系统的安全、可靠、高效。
根据理想汽车规划,双系统方案将于 8 月开启千人公测,官方预计今年底或明年初面向普通用 户推送。7 月份向全量 AD Max 用户推送的无图 NOA 仍然基于分段式端到端实现。
蔚来:构建基于世界模型的端到端算法,时空理解+规划决策能力全面提升
基于对于时空理解能力需求的提升,蔚来构建世界模型实现端到端。单一端到端模型对于时间 维度信息的融合和推演都是定长的,缺乏自动建模长时序信息的能力。在蔚来科技日上,蔚来 智能驾驶副总裁任少卿发布了蔚来世界模型 NWM(NIO World Model)。NWM 类比人脑具有想 象推演和想象重建能力,可以根据一个真实场景,生成一万个“平行世界”。其表示该模型和 端到端架构结合,能够进一步提升算法对复杂场景的处理能力,补足了自动驾驶系统预测未来 事件以及时空理解与想象能力。
NWM 主要的优化在于①全量理解信息,空间认知能力更强;②能够预测接下来的场景;③生 成式无监督的方式,对海量数据的利用更加高效,基于以上能力,MWN 理解世界、推演世界、 仿真世界的能力。 1、理解世界:通过自回归的方式重建原始传感器信息的输入,在其中自动学习知识和物理规 律,能够做到全量信息重建,想象重构世界,保证更强的泛化能力。 2、推演世界:NWM 能在 0.1 秒内推演出 216 种可能发生的轨迹,并根据外界的信息的输入, 重复更新内在时空的模型,对 216 种可能性进行预测,得到驾驶决策最优解。 3、仿真世界:NWM 具备闭环仿真测试能力,生成式仿真模型 NSim 可以在真实世界唯一轨迹 的基础上增加大量 NWM 推演的轨迹与仿真结果进行对比,让输出的智驾轨迹和体验更安全合 理高效。 世界模型的端到端架构将在全新智能驾驶架构 NADArch 2.0 上车。蔚来智能驾驶架构 NADArch 2.0 在算法层面升级为引入世界模型的端到端架构,全域领航辅助 NOP+和智能安全 将同步升级为 2.0 版本。其中,点到点全域领航辅助 2.0 将于下半年上车,智能安全 2.0 已逐 步迭代。端到端技术将首先应用在主动安全功能上,今年 7 月初,基于端到端架构的自动紧急 制动功能 AEB 已在 Banyan·榕 2.6.5 版本中正式上车,提升响应覆盖 6.73 倍。