端到端自动驾驶架构演进历程与路径分析

端到端自动驾驶架构演进历程与路径分析

最佳答案 匿名用户编辑于2025/11/17 15:21

当前智能驾驶已分化出两条核心路径——VLA和世界模型.

1.端到端智能驾驶演进历程

第一阶段:感知“端到端”/“BEV+ transformer”(2021年由特斯拉提出):自动驾驶架构拆解为感知与预测决策规划两大模块。感知模块借助多传输器融合的BEV 技术达成模块级“端到端”,引入transformer与crossattention方案,显著提升检测精度与稳定性,而规划决策模块仍以传统Rule-based方法主导。

第二阶段:决策规划模型化/“占用网络”(2022年由特斯拉提出) :架构模块组成维持不变,感知端延续前代解决方案。预测决策规划模块迎来重大革新,将预测、 决策、规划功能整合至同一神经网络。尽管感知与决策规划均采用深度学习,但模块接口依人类理解定义,各模块仍独立训练。

第三阶段:模块化端到端/两段式端到端:(小鹏、华为、极氪当前应用方案)整体结构与上一阶段相似,网络结构细节与训练方案却大不相同。感知模块不再输出人 类可理解结果,转而输出特征向量,预测决策规划模块依此生成运动规划。两模块输出转变,训练时必须通过梯度传导,实现跨模块联合训练。

第四阶段:OneModel/一段式端到端: (特斯拉、理想、Momenta当前应用方案)此阶段打破感知、决策规划等功能界限,从原始信号输入到最终规划轨迹输出,全程 由单一深度学习模型完成。OneModel可基于强化学习、模仿学习实现,也可由世界模型衍生,实现高度集成与智能化。

端到端智能驾驶第一阶段

定义:BEV(Bird’s Eye View,鸟瞰图视角)是在自动驾驶跨摄像头和多模态融合背景下形成的一种关键视角表达方式。其核心思想是将传统基于 2D 图像与测距的 感知方式,转换为在鸟瞰视角下的 3D 感知框架,使环境信息的表达更加全面、直观和具备空间连续性。从实现路径来看,BEV 的核心在于以 2D 图像作为输入,输出 可用于决策的 3D 场景框架。在这一过程中,如何高效地融合来自不同传感器(摄像头、毫米波雷达、激光雷达等)的特征信息,实现最优表达与空间映射,是技术实 现的重点与难点所在。

Transformer 是另一项推动智能驾驶感知能力快速演进的核心技术。它是一种基于注意力机制的神经网络结构,由谷歌于 2017 年提出。与传统的 RNN、CNN 不同, Transformer 并不依赖串行数据处理,而是通过注意力机制挖掘序列中不同元素的关联关系,具备出色的特征提取与长依赖建模能力。这一特性使得 Transformer 能 够灵活适配不同长度与不同结构的输入信号,在多传感器融合和环境建模中展现出显著优势。

在智能驾驶技术架构中,感知端到端一直是最早应用端到端技术的模块之一,也是实现自动驾驶能力跃升的关键组成部分。在早期的智能驾驶系统中,端到端技术主要 集中于感知层,用于高效、实时地提取并融合环境信息。随着算法和算力的持续演进,决策规划等后端模块也开始逐步引入端到端方法,推动整体架构从分层式向一体 化方向演进。

端到端智能驾驶第二阶段

占用网络重塑环境感知,夯实智驾基础能力。占用网络(Occupancy Network)是自动驾驶“环境感知”环节的重要底层技术,其核心思想是通过对三维空间进行体素 级划分与占用预测,构建更高精度的全局环境表示。与传统感知方法相比,占用网络能够有效弥补在“遮挡处理”“形状精细建模”“全局环境认知”等方面的短板, 为后续的路径规划和行为决策提供更完整、更稳定的环境输入。随着算力持续提升与网络结构优化(如动态体素划分、稀疏卷积等),占用网络正逐步成为高性能智能 驾驶系统中的关键模块,尤其适用于结构复杂、目标密集的城市道路场景。

体素级空间建模提升环境刻画精度。从本质上看,Occupancy Network 算法是一种 3D 空间分割任务。它通过将待感知的三维空间划分为固定大小的体素网格,并利用 算法预测每个体素被目标类别占用的概率,实现对全场景的空间建模。这种方法不仅可以对已知的车辆、行人等目标进行精确刻画,还能识别数据集中未被标注的“泛 目标”(General Objects),如土堆、石块等,从而实现开放集目标检测,提升系统的环境理解力。同时,相较直接输出 3D 目标框的算法,占用网络能对空间中的 每个体素单元进行建模,因此对于不规则形状或边界模糊的目标,能够还原更丰富的几何细节和结构信息,增强整体环境表达能力。

占用网络增强三维表达,优于传统 BEV 方法。与 BEV 方法相比,占用网络的差异主要体现在目标表示方式上。BEV 采用二维平面投影,容易丢失高度信息与空间结构 特征;而占用网络基于三维体素化网格,将物体分解为大量小立方体单元,能够更准确地刻画形状特征。体素越小,环境分辨率越高,场景还原也越接近真实。占用预 测本身也可以与 BEV 结合——通过将体素化结果投影到鸟瞰图,实现保留空间信息的同时增强占用可视化,使感知结果更直观、可靠。

端到端智能驾驶第三及第四阶段

模块化端到端(OneModel)通过深度学习将传统“感知—规划—控制”流程统一映射到单一模型中,减少任务拆解带来的累积误差,并实现整体优化。目前, 特斯拉、Wayve、百度 Apollo、小鹏等企业均在加速布局相关技术路径,这一方向正成为高阶智能驾驶的重要演进路线。

技术原理方面,一段式端到端模型通常包含四大核心模块:(1)感知编码器:基于 CNN 或 ViT 提取摄像头、激光雷达、毫米波雷达等传感器的多尺度特征; (2)环境理解模块:通过时序建模(RNN、时序卷积、Temporal Attention)融合多帧信息,识别动态目标、道路结构与交通信号;(3)决策预测层:输出加 减速趋势、变道意图、转向方向等驾驶决策;(4)控制生成器:将决策结果转化为执行信号,实现车辆实时响应。

架构类型主要分为两类:可解释端到端(模块化):在端到端框架下保留中间感知或预测模块输出,兼顾可调试性与安全性,Wayve、小鹏等多采用此类架构; 黑盒端到端(One Model):直接输出轨迹/控制信号,代表如特斯拉 FSD,技术上限更高但可解释性和调试难度较大。

2.端到端智能驾驶已分化出两种核心路径

当前智能驾驶已分化出两条路径。2024 年夏季以来,端到端(End-to-End)智能驾驶技术格局发生显著变化,从 2023 年 “一家独大” 的单一技术路径,正 式演进为两大核心路线并行发展的态势。其中,第一条路线为以 “视觉 — 语言 — 行为”(Visual-Language-Action, VLA)链路为核心的架构体系,第二条 路线则是以物理推演为核心驱动力的世界模型(World Model)路线,VLA 和世界模型并不是完全对立,而是两条目前并行发展的技术路线:VLA 适合快速迭代、 兼容现有量产平台,短期内易于落地。世界模型则代表了更底层的认知方式,强调物理规律和空间理解力,适合长期演进。

 VLA架构:VLA 架构的技术逻辑遵循 “感知 – 理解 – 决策 – 控制” 的全链路语义化转化,其核心流程可拆解为四步:首先通过图像传感器完成环境感知 与图像识别;其次将视觉感知结果转化为可被大语言模型理解的语言 Token(如 “前方 50 米有静止车辆”“当前车道为潮汐车道”);再由大模型基于语言 Token 生成符合人类驾驶逻辑的驾驶建议;最后将抽象建议转化为具体的车辆控制轨迹,并通过实时反馈机制进行动态校正。

 世界模型架构:与 VLA 架构依赖 “语言中间层” 的技术逻辑不同,世界模型路线通过绕开语言转化环节,直接将 3D 高斯表征、点云等空间感知数据输入大 模型,在模型潜空间内完成物理规律推演(如车辆碰撞风险预判、行人运动轨迹预测),并直接输出车辆控制指令,形成 “云端世界引擎 + 车端世界行为模型” 的技术架构 —— 云端世界引擎负责大规模场景的物理规律建模与预训练,车端世界行为模型则基于实时感知数据进行快速决策。

参考报告

智能驾驶行业深度报告:世界模型与VLA技术路线并行发展.pdf

智能驾驶行业深度报告:世界模型与VLA技术路线并行发展。新能源车高增推动智能驾驶快速渗透。中国已成为全球汽车产业电动化、智能化发展方向上的积极倡导者与重要引领者。近年来,中国新能源汽车市场销量及渗透率均呈现出稳步上升态势,整体增长趋势明确。回顾2019–2025H1期间,尽管总销量受宏观环境及周期性因素影响略有波动,但新能源汽车销量总体保持持续增长,尤其在2023–2024年期间实现显著放量,市场增势明显。同时,新能源汽车渗透率一路攀升,从2019年的较低水平起步,先后突破10%、30%、50%等关键阶段性关口,反映出新能源车型在整体汽车市场中的占比不断提升,消费者对新...

查看详情
相关报告
我来回答