理想汽车智能驾驶技术进展如何?

理想汽车智能驾驶技术进展如何?

最佳答案 匿名用户编辑于2025/08/13 11:27

一年内,理想先后发布行业首创的“端到端+VLM”双系统架构和 MindVLA 架构。

近期理想汽车的智驾系统迭代速度很快,一年时间内先后推出了端到端+VLM 双系统和 VLA 系统。 2024 年 7 月,理想发布行业首创的端到端+VLM 双系统智能驾驶架构,并于 10 月 23 日实现将此智 驾方案全量推送。

整个决策体系由两套系统构成: 系统 1 是用来快速响应常规驾驶问题的端到端模型,可类比于人类的快速决策的行为系统。这 是一个 4D One Model 端到端架构,感知方面通过摄像头、激光雷达数据抽取 BEV 特征,但加 入时序记忆以构成 4D 特征,决策方面通过模仿学习和强化学习相结合的训练方法,形成一个 4D 端到端模型; 系统 2 是一个 22 亿参数规模的 VLM,可类比于人类的应对复杂情况的慢思考系统。其具备复 杂环境理解能力(可识别坑洼、标牌、交警手势等)、读懂导航地图的能力(比如主辅路走错 的情况下,判断该怎么办)、交通规则的理解能力。 驾驶时,约 95%的驾驶场景由系统 1 直接完成;另有约 5%的复杂场景系统 1 无法完成时,需要系统 2 来参与理解和判断。比如面临潮汐车道的标牌时,不仅要看清楚图片,还要理解图片上面的字, 然后做出相应判断,这时就需要系统 2 参与。 图表 24 是理想端到端+VLM 的一个运行案例,当系统 2 通过传感器判断前方路面坑洼,产生减速行 驶的决策,以减少乘客颠簸;系统 1 接受系统 2 的建议,将时速从 40 公里/小时降低到 32 公里/小时。 2025 年 3 月 18 日,理想汽车自动驾驶技术研发负责人贾鹏在英伟达 GTC2025 大会发表主题演讲 《VLA:迈向自动驾驶物理智能体的关键一步》,分享了理想汽车对于下一代自动驾驶技术 MindVLA 的最新思考和进展;随后,2025 年 5 月 7 日,理想汽车创始人、CEO 李想在“理想 AI Talk 第二季” 具体讲解了理想 VLA(又称“司机大模型”)的训练和推理方法。李想表示此 VLA 模型支持的辅 助驾驶系统将在 2025 年 9 月前正式上车。 MindVLA 不是简单将端到端模型与 VLM 模型结合在一起,而且所有模块都是全新设计。

从端到端+VLM 到 VLA,区别在哪? 一方面,语义推理空间与轨迹规划空间更加紧耦合,提升了模型泛化性能。与之前的框架契合,理 想从端到端+VLM 向 MindVLA 的升级,符合从 VLx 与经典端到端松耦合的范式走向 VLx 与轨迹规 划紧耦合的范式的转变,因为前者解耦了语义推理空间和轨迹动作空间,阻碍了轨迹优化和 VLM 推 理过程间的协同优化,因此没有充分利用 VLM 对端到端规划的能力;而后者将语义推理空间和轨 迹动作空间融合在一起,因此能够将策略优化得更好。 另一方面,双系统存自身限制。根据佐思汽研分析,端到端+VLM 架构存在两个明显的限制: 1. 双系统采用单一处理流程,将相机、激光雷达、自车姿态和导航信息输入,通过 3D 编码器和 动作解码器直接输出轨迹。因为端到端模型基于判别式 AI 而非生成式 AI,不具备通识和常识 推理能力,只能应对已经学习过的场景,在长尾场景下泛化能力不足。这种方法虽然简洁,但 在处理空间理解和语言交互方面存在局限性; 2. 双系统结构在借助 VLM 对端到端系统开展语义理解工作时(即双系统通信时),技术层面有 一些不足。当下视觉语言模型的输入数据较为单一,主要依靠前摄像头获取的 2D 平面数据, 而车周和后视摄像头提供的全方向环视信息并未被有效纳入。由于 VLM 在 3D 空间理解能力上 存在明显短板,而这是指导轨迹输出所必须的核心技术要素。 MindVLA 架构强化了 3D 空间信息的处理(3D Tokenizer)、语言模型的场景理解(MindGPT)及 集体行动的生成能力(Collective Action Generator),使得 MindVLA 在保持强大空间语言推理能力 的同时,实现了视觉、语言、动作三个模态的特征在统一空间的集体建模与对齐,有望解决复杂场 景下的智能决策需求。

理想 MindVLA 是如何训练的? 理想汽车 CEO 李想称其 MindVLA 为“司机大模型”,其推理与训练过程分为四个阶段:VL(视觉 语言)基座预训练、辅助驾驶后训练、辅助驾驶强化学习、司机智能体训练。

第一阶段:VL(视觉语言)基座预训练,这一阶段属于自监督学习。 这一步首先训练一个云端的 VL 基座大模型,然后蒸馏至车端 VL 小模型。截至 2025 年 5 月,理想 的云端大模型是 320 亿稠密参数的大模型,蒸馏后,成为 36 亿参数规模的 MoE(混合专家)模型, 可以部署在汽车上使用。 理想在这一阶段的创新,主要是云侧的 VL 大模型与其他开源 VLM 模型的数据和训练方法有区别, 具体体现在 3 个方面: 1)视觉语料有区别。理想 VL 基座大模型需要放入更多视觉语料,包括 3D 视觉语料、高清 2D 语 料;而此前的多模态开源 VLM(视觉语言模型)的数据集,一般不包含 3D 视觉娱乐,同时 2D 视 觉语料的清晰度较低,并且看的距离不够远,直接应用于车端效果不佳; 2)文本语料有区别。在语言模型的训练时,理想会加入足够多跟驾驶、交通规则相关性高的语料, 在智驾知识方面的语料比例较传统大模型更高; 3)联合语料的区别。理想 VL 基座大模型加入很多 VL(即视觉和语言两个模态)联合语料,同时 增加 3D 图文的联合数据,这是传统 VLM 模型不具备的。 这一阶段有两个重要问题: 1)为什么主机厂需要自研 VL 基座大模型? 主要为了针对车端场景优化。因为目前通用的 VLM 大模型,缺乏更专业的汽车领域、交通领域、 家庭场景的语义语料,对于通用 VLM 大模型而言,既缺少这样的数据、也没有这样使用场景,因 此通用 VLM 在智驾场景的使用效果必然不如自研 VLM 基座大模型。 2)为什么要采用 MoE 架构? 主要为了降低时延。因为目前算力芯片(双 Orin-X 或 Thor-U)的帧率达不到要求,即现有车端算力 芯片输出 Token 的速度不足以支撑驾驶需求;而采用 MoE 架构后,可有效降低每次计算时激活的参 数量,满足车端对低时延的需求。

第二阶段:辅助驾驶后训练,该阶段以模仿学习范式为主。 这一阶段训练目的是把 Action(动作)模态加到模型中,让 VL 模型变成 VLA 模型。这里后训练本 质是模仿学习,通过模仿人类驾驶数据,形成 VLA 的端到端驾驶策略。以例子来理解,类似人类学 车时,到驾校学习开车的经验。加入 Action 模态后,模型参数规模从 36 亿扩大到约 40 亿。 这里 MindVLA 控制了思维链(COT)长度,一般仅限 2~3 步,因为思维链太长会导致延迟太长, 没法满足交通场景下对时延的要求。 在完成驾驶 Action 后,MindVLA 会用 Diffusion 模型预测未来 4~8 秒的交通环境和自车轨迹的演变, 为接下来可能的交通情况做预备。

第三阶段:辅助驾驶强化学习,分为人类偏好对齐(RLHF)与纯强化学习(RL)两部分。 第一部分先做 RLHF(基于人类反馈的数据),其目的是让 MindVLA 的驾驶习惯融入中国驾驶社 会,能够被路上其他驾驶员所接受。这包括人类驾驶习惯的对齐(比如当车辆处于什么样的情况人 类会接管/不会接管)、安全的对齐(比如要遵守的交通规则)、中国驾驶习惯的对齐等。 第二部分是纯粹的 RL(强化学习),其目的是为了让 MindVLA 驾驶水平超过人类,采用世界模型 生成的数据来做训练。这部分训练时,不再给人类反馈,只给驾驶结果反馈,让 MindVLA 自己在 仿真器中做闭环强化学习。 一般在强化学习时,需要考虑奖励函数的设置。在理想 MindVLA 的训练过程中,会根据三类反馈 设置奖励函数,分别是: 1) 驾驶舒适度。可以通过加速度值(即车端 IMU 等参数)来判断驾驶舒适性,驾驶过程中实现 更符合人类驾乘舒适度的加速度值给高反馈,否则给低反馈; 2) 碰撞事故。如果驾驶途中没有与其他物体碰撞就给高反馈,否则给低反馈; 3) 交通规则。如果驾驶途中未违反交通规则就给高反馈,否则给低反馈。 通过这三个阶段创新性的预训练与后训练方法,理想让 MindVLA 实现了卓越的泛化能力和涌现特 性,能够在驾驶场景下实现优异的表现。

第四阶段:司机智能体训练,用于提升乘客交互体验。 这一阶段的优化目的,是让 MindVLA 能够更好地跟人类协同工作,提升用户体验。理想希望借此 将 MindVLA 打造成“听得懂、看得见、找得到”的专职司机: 听得懂:指用户可以通过语音指令改变车辆的路线和行为。例如在陌生园区寻找超市,只需要 通过理想同学对车辆说:“带我去找超市”,车辆将在没有导航信息的情况下,自主漫游找到 目的地; 看得见:指 MindVLA 具备强大的通识能力,不仅能够识别星巴克、肯德基等不同招牌,也可以 通过用户发送的环境照片,通过自动搜寻照片的位置的方式,来主动寻找用户; 找得到:指搭载 MindVLA 的车辆可以在地库、园区和公共道路上漫游,依赖 MindVLA 的空间 理解和逻辑推理能力,来完成“去找个车位停好”这样的指令。 具体设计方面,理想将用户指令分为两类:一类是通用的短指令,理想 VLA(司机大模型)直接处 理,不需要经过云端;另一类是复杂的任务指令,理想 VLA 会先将指令上传到云端的 32B VL 基座 大模型,做长任务拆解,拆解至多个短指令,然后再交给车端 VLA(司机大模型)来执行。 经过如上四个阶段,最后交付到用户手里的产品,是一个完全体的“司机大模型”:能够像人类司 机一样理解物理世界、像人类司机一样开车、像人类司机一样跟人沟通的智能驾驶模型。

参考报告

AI端侧深度之智能驾驶专题报告:技术范式迭代打开性能上限,竞争、监管、应用加速高阶智驾落地.pdf

AI端侧深度之智能驾驶专题报告:技术范式迭代打开性能上限,竞争、监管、应用加速高阶智驾落地。在大模型引领的技术潮流下,AI能力加速赋能各类硬件终端,与一般硬件终端应用AI能力的方式不同,智能驾驶将AI能力应用于改变物理世界。当前正值高阶智能驾驶商业落地的关键时点,为探讨这一投资机遇,本报告从底层技术变迁和商业落地这两方面,分析智能驾驶的产业趋势和影响。我们认为,随着智驾技术范式快速迭代、中国车企竞争策略驱动,智能驾驶有望成为物理AI率先落地的场景,带动产业链企业的投资机遇。智驾有望成为物理AI率先落地的场景。国内车企的竞争焦点从比较“开城”数量、到实现“全国...

查看详情
相关报告
我来回答