理想汽车智能驾驶技术进展如何？

提问时间：2025/08/13
浏览次数：57
提问者：匿名用户
举报
分享微信 QQ 微博

理想汽车智能驾驶技术进展如何？

标签

理想汽车
智能驾驶

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2025/08/13 11:27

一年内，理想先后发布行业首创的“端到端+VLM”双系统架构和 MindVLA 架构。

近期理想汽车的智驾系统迭代速度很快，一年时间内先后推出了端到端+VLM 双系统和 VLA 系统。 2024 年 7 月，理想发布行业首创的端到端+VLM 双系统智能驾驶架构，并于 10 月 23 日实现将此智驾方案全量推送。

整个决策体系由两套系统构成：系统 1 是用来快速响应常规驾驶问题的端到端模型，可类比于人类的快速决策的行为系统。这是一个 4D One Model 端到端架构，感知方面通过摄像头、激光雷达数据抽取 BEV 特征，但加入时序记忆以构成 4D 特征，决策方面通过模仿学习和强化学习相结合的训练方法，形成一个 4D 端到端模型；系统 2 是一个 22 亿参数规模的 VLM，可类比于人类的应对复杂情况的慢思考系统。其具备复杂环境理解能力（可识别坑洼、标牌、交警手势等）、读懂导航地图的能力（比如主辅路走错的情况下，判断该怎么办）、交通规则的理解能力。驾驶时，约 95%的驾驶场景由系统 1 直接完成；另有约 5%的复杂场景系统 1 无法完成时，需要系统 2 来参与理解和判断。比如面临潮汐车道的标牌时，不仅要看清楚图片，还要理解图片上面的字，然后做出相应判断，这时就需要系统 2 参与。图表 24 是理想端到端+VLM 的一个运行案例，当系统 2 通过传感器判断前方路面坑洼，产生减速行驶的决策，以减少乘客颠簸；系统 1 接受系统 2 的建议，将时速从 40 公里/小时降低到 32 公里/小时。 2025 年 3 月 18 日，理想汽车自动驾驶技术研发负责人贾鹏在英伟达 GTC2025 大会发表主题演讲《VLA：迈向自动驾驶物理智能体的关键一步》，分享了理想汽车对于下一代自动驾驶技术 MindVLA 的最新思考和进展；随后，2025 年 5 月 7 日，理想汽车创始人、CEO 李想在“理想 AI Talk 第二季” 具体讲解了理想 VLA（又称“司机大模型”）的训练和推理方法。李想表示此 VLA 模型支持的辅助驾驶系统将在 2025 年 9 月前正式上车。 MindVLA 不是简单将端到端模型与 VLM 模型结合在一起，而且所有模块都是全新设计。

从端到端+VLM 到 VLA，区别在哪？一方面，语义推理空间与轨迹规划空间更加紧耦合，提升了模型泛化性能。与之前的框架契合，理想从端到端+VLM 向 MindVLA 的升级，符合从 VLx 与经典端到端松耦合的范式走向 VLx 与轨迹规划紧耦合的范式的转变，因为前者解耦了语义推理空间和轨迹动作空间，阻碍了轨迹优化和 VLM 推理过程间的协同优化，因此没有充分利用 VLM 对端到端规划的能力；而后者将语义推理空间和轨迹动作空间融合在一起，因此能够将策略优化得更好。另一方面，双系统存自身限制。根据佐思汽研分析，端到端+VLM 架构存在两个明显的限制： 1. 双系统采用单一处理流程，将相机、激光雷达、自车姿态和导航信息输入，通过 3D 编码器和动作解码器直接输出轨迹。因为端到端模型基于判别式 AI 而非生成式 AI，不具备通识和常识推理能力，只能应对已经学习过的场景，在长尾场景下泛化能力不足。这种方法虽然简洁，但在处理空间理解和语言交互方面存在局限性； 2. 双系统结构在借助 VLM 对端到端系统开展语义理解工作时（即双系统通信时），技术层面有一些不足。当下视觉语言模型的输入数据较为单一，主要依靠前摄像头获取的 2D 平面数据，而车周和后视摄像头提供的全方向环视信息并未被有效纳入。由于 VLM 在 3D 空间理解能力上存在明显短板，而这是指导轨迹输出所必须的核心技术要素。 MindVLA 架构强化了 3D 空间信息的处理（3D Tokenizer）、语言模型的场景理解（MindGPT）及集体行动的生成能力（Collective Action Generator），使得 MindVLA 在保持强大空间语言推理能力的同时，实现了视觉、语言、动作三个模态的特征在统一空间的集体建模与对齐，有望解决复杂场景下的智能决策需求。

理想 MindVLA 是如何训练的？理想汽车 CEO 李想称其 MindVLA 为“司机大模型”，其推理与训练过程分为四个阶段：VL（视觉语言）基座预训练、辅助驾驶后训练、辅助驾驶强化学习、司机智能体训练。

第一阶段：VL（视觉语言）基座预训练，这一阶段属于自监督学习。这一步首先训练一个云端的 VL 基座大模型，然后蒸馏至车端 VL 小模型。截至 2025 年 5 月，理想的云端大模型是 320 亿稠密参数的大模型，蒸馏后，成为 36 亿参数规模的 MoE（混合专家）模型，可以部署在汽车上使用。理想在这一阶段的创新，主要是云侧的 VL 大模型与其他开源 VLM 模型的数据和训练方法有区别，具体体现在 3 个方面： 1）视觉语料有区别。理想 VL 基座大模型需要放入更多视觉语料，包括 3D 视觉语料、高清 2D 语料；而此前的多模态开源 VLM（视觉语言模型）的数据集，一般不包含 3D 视觉娱乐，同时 2D 视觉语料的清晰度较低，并且看的距离不够远，直接应用于车端效果不佳； 2）文本语料有区别。在语言模型的训练时，理想会加入足够多跟驾驶、交通规则相关性高的语料，在智驾知识方面的语料比例较传统大模型更高； 3）联合语料的区别。理想 VL 基座大模型加入很多 VL（即视觉和语言两个模态）联合语料，同时增加 3D 图文的联合数据，这是传统 VLM 模型不具备的。这一阶段有两个重要问题： 1）为什么主机厂需要自研 VL 基座大模型？主要为了针对车端场景优化。因为目前通用的 VLM 大模型，缺乏更专业的汽车领域、交通领域、家庭场景的语义语料，对于通用 VLM 大模型而言，既缺少这样的数据、也没有这样使用场景，因此通用 VLM 在智驾场景的使用效果必然不如自研 VLM 基座大模型。 2）为什么要采用 MoE 架构？主要为了降低时延。因为目前算力芯片（双 Orin-X 或 Thor-U）的帧率达不到要求，即现有车端算力芯片输出 Token 的速度不足以支撑驾驶需求；而采用 MoE 架构后，可有效降低每次计算时激活的参数量，满足车端对低时延的需求。

第二阶段：辅助驾驶后训练，该阶段以模仿学习范式为主。这一阶段训练目的是把 Action（动作）模态加到模型中，让 VL 模型变成 VLA 模型。这里后训练本质是模仿学习，通过模仿人类驾驶数据，形成 VLA 的端到端驾驶策略。以例子来理解，类似人类学车时，到驾校学习开车的经验。加入 Action 模态后，模型参数规模从 36 亿扩大到约 40 亿。这里 MindVLA 控制了思维链（COT）长度，一般仅限 2~3 步，因为思维链太长会导致延迟太长，没法满足交通场景下对时延的要求。在完成驾驶 Action 后，MindVLA 会用 Diffusion 模型预测未来 4~8 秒的交通环境和自车轨迹的演变，为接下来可能的交通情况做预备。

第三阶段：辅助驾驶强化学习，分为人类偏好对齐（RLHF）与纯强化学习（RL）两部分。第一部分先做 RLHF（基于人类反馈的数据），其目的是让 MindVLA 的驾驶习惯融入中国驾驶社会，能够被路上其他驾驶员所接受。这包括人类驾驶习惯的对齐（比如当车辆处于什么样的情况人类会接管/不会接管）、安全的对齐（比如要遵守的交通规则）、中国驾驶习惯的对齐等。第二部分是纯粹的 RL（强化学习），其目的是为了让 MindVLA 驾驶水平超过人类，采用世界模型生成的数据来做训练。这部分训练时，不再给人类反馈，只给驾驶结果反馈，让 MindVLA 自己在仿真器中做闭环强化学习。一般在强化学习时，需要考虑奖励函数的设置。在理想 MindVLA 的训练过程中，会根据三类反馈设置奖励函数，分别是： 1) 驾驶舒适度。可以通过加速度值（即车端 IMU 等参数）来判断驾驶舒适性，驾驶过程中实现更符合人类驾乘舒适度的加速度值给高反馈，否则给低反馈； 2) 碰撞事故。如果驾驶途中没有与其他物体碰撞就给高反馈，否则给低反馈； 3) 交通规则。如果驾驶途中未违反交通规则就给高反馈，否则给低反馈。通过这三个阶段创新性的预训练与后训练方法，理想让 MindVLA 实现了卓越的泛化能力和涌现特性，能够在驾驶场景下实现优异的表现。

第四阶段：司机智能体训练，用于提升乘客交互体验。这一阶段的优化目的，是让 MindVLA 能够更好地跟人类协同工作，提升用户体验。理想希望借此将 MindVLA 打造成“听得懂、看得见、找得到”的专职司机：听得懂：指用户可以通过语音指令改变车辆的路线和行为。例如在陌生园区寻找超市，只需要通过理想同学对车辆说：“带我去找超市”，车辆将在没有导航信息的情况下，自主漫游找到目的地；看得见：指 MindVLA 具备强大的通识能力，不仅能够识别星巴克、肯德基等不同招牌，也可以通过用户发送的环境照片，通过自动搜寻照片的位置的方式，来主动寻找用户；找得到：指搭载 MindVLA 的车辆可以在地库、园区和公共道路上漫游，依赖 MindVLA 的空间理解和逻辑推理能力，来完成“去找个车位停好”这样的指令。具体设计方面，理想将用户指令分为两类：一类是通用的短指令，理想 VLA（司机大模型）直接处理，不需要经过云端；另一类是复杂的任务指令，理想 VLA 会先将指令上传到云端的 32B VL 基座大模型，做长任务拆解，拆解至多个短指令，然后再交给车端 VLA（司机大模型）来执行。经过如上四个阶段，最后交付到用户手里的产品，是一个完全体的“司机大模型”：能够像人类司机一样理解物理世界、像人类司机一样开车、像人类司机一样跟人沟通的智能驾驶模型。

参考报告

AI端侧深度之智能驾驶专题报告：技术范式迭代打开性能上限，竞争、监管、应用加速高阶智驾落地.pdf

AI端侧深度之智能驾驶专题报告：技术范式迭代打开性能上限，竞争、监管、应用加速高阶智驾落地。在大模型引领的技术潮流下，AI能力加速赋能各类硬件终端，与一般硬件终端应用AI能力的方式不同，智能驾驶将AI能力应用于改变物理世界。当前正值高阶智能驾驶商业落地的关键时点，为探讨这一投资机遇，本报告从底层技术变迁和商业落地这两方面，分析智能驾驶的产业趋势和影响。我们认为，随着智驾技术范式快速迭代、中国车企竞争策略驱动，智能驾驶有望成为物理AI率先落地的场景，带动产业链企业的投资机遇。智驾有望成为物理AI率先落地的场景。国内车企的竞争焦点从比较“开城”数量、到实现“全国...

查看详情

理想汽车智能驾驶技术进展如何？

AI端侧深度之智能驾驶专题报告：技术范式迭代打开性能上限，竞争、监管、应用加速高阶智驾落地.pdf

理想汽车成功与失败经历复盘

理想汽车新品与海内外布局情况如何？

理想汽车发展历程、产品矩阵、营收与销量分析

理想汽车历史经营与战略分析

如何理解理想汽车的护城河？

理想汽车如何构建护城河？

理想汽车经营看点在哪？

理想汽车产品矩阵与技术梳理

理想汽车业务布局情况如何？

理想汽车核心能力有哪些？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王