2025年汽车行业专题报告：VLA和世界模型_通往高阶智能驾驶之路——辅助驾驶系列报告二

来源：国海证券
发布时间：2025/09/16
浏览次数：269
举报

相关深度报告REPORTS

汽车行业专题报告：VLA和世界模型_通往高阶智能驾驶之路——辅助驾驶系列报告二.pdf

汽车行业专题报告：VLA和世界模型_通往高阶智能驾驶之路——辅助驾驶系列报告二。一、VLA模型（Vision-Language-Action）定义：VLA是一种端到端多模态人工智能架构，通过融合视觉输入（图像/视频）和自然语言指令，直接生成可执行的物理动作，实现从感知、理解到控制的闭环。特点：多模态融合-结合视觉语义与语言指令，增强场景理解与交互能力；语义推理与泛化-支持复杂场景的语义推理和长尾问题处理。产业玩家：理想汽车-自研MindVLA模型，具备空间理解、思维、沟通与记忆、行为能力四大功能，基于Thor-U/Orin-X平台量产部署，支持语言控制驾驶，于2025年...

一、VLA模型：多模态融合驱动，重塑人车交互与决策控制

VLA：融合视觉、语言、动作的端到端人工智能模型

Vision-Language-Action（VLA）模型是一种融合视觉（Vision）、语言（Language）和动作（Action）三大模态的端到端人工智能模型。它通过统一的多模态学习框架，将感知、推理与控制一体化，直接根据视觉输入（如图像、视频）和语言指令（如任务描述）生成可执行的物理世界动作（如机器人关节运动、车辆转向控制）。 VLA概念形成于2021-2022年左右，由Google DeepMind的Robotic Transformer2 （RT-2）等项目开创。

VLA应用于智能驾驶：WAYVE的早期尝试

Wayve成立于2017年，是一家在辅助驾驶领域进行具身智能研究的领先开发商，一直处于将大型语言模型应用于辅助驾驶的前沿，用自然语言来增强基础驱动模型的学习和可解释性。公司于2023年9月发布了其开环驾驶评论器LINGO-1研究模型，2024年4月推出的闭环驾驶模型LINGO-2，将语言与驾驶深度联系起来，以提供人工智能（AI）模型对驾驶场景理解的可见性，塑造人车交互的未来，以构建安全可靠的自动驾驶系统服务。

VLA核心架构模块：视觉、语言、动作三大编码器

VLA的技术细节主要有三大核心模块：1）视觉编码器：采用自监督模型如DINOv2、CLIP，结合BEV投影和LiDAR融合技术。2）语言处理器：大语言模型（如LLaMA、Qwen、Vicuna、GPT等），通常通过LoRA等轻量化技术优化。3）动作解码器：包括自回归token、扩散规划器、分层控制器（高层策略→PID/MPC控制）。学术界将VLA模型在智驾方面的发展归纳为四个主要阶段：Pre-VLA：语言作为解释器LLM解码器用自然语言解释驾驶场景或推荐操作，但实际车辆控制还是由传统模块（PID控制器等）处理。无需直接输出控制。模块化VLA：语言模型从被动的场景描述者，变成了模块化架构中主动的规划组件，类似：VLM+Action，Action是拆开的。例如采用混合专家架构，如“超车专家”或“走走停停专家”，利用语言提示根据上下文动态选择子规划器。统一端到端VLA：单一网络直接映射多模态输入到控制或轨迹输出，国内叫法可以称为一段式VLA。但学术界也指出，端到端VLA的局限在于长程推理和复杂多步规划能力有限。推理增强型VLA：语言模型处于控制闭环的核心，同时支持长时记忆和链式推理。这样它能在输出动作之前进行解释、预测并执行长远推理，真正实现代理司机的概念。

理想汽车的VLA：从E2E+VLM升级而来

2024年的7月首次发布了一段式E2E+VLM的快慢双系统模型。在端到端基础上，VLM慢系统更像是副驾驶的角色，引入QWEN-LLM（通义千问大语言模型），能够给到端到端的快系统一些辅佐的决策，但是不直接生成规划轨迹，仅提供对于环境的理解和驾驶决策建议。创新性引入：流式视频编码器（能够缓存更长的视觉时序）、记忆模块（缓存多帧历史信息以执行超长时序的推理问题）、智驾Prompt库（协助系统一解决部分场景问题），以提供更丰富的上下文理解和人机交互体验。2025 年 3 月份英伟达大会上首次披露了将MindVLA 架构。该架构将快慢系统融合于同一架构中，包含全新设计的视觉、语言、行为三大模块，通过新增高斯特征的 3D 感知能力强化场景理解；结合自研语言模型（MindGPT）及逻辑推理优化方案（MOE 架构 + Sparse Attention），输出合理的驾驶决策。此外，该架构具备思维链（COT）表达能力，可自主切换快慢思考模式，其输出的 Action Token 通过 Diffusion 模型优化，最终生成最佳驾驶轨迹。VLA具备空间理解能力、思维能力、沟通与记忆能力、行为能力，在输入、理解、输出都有全面增强，使得在输入端的语言信息能够控制车辆驾驶行为，结合语义理解和多模态感知，共同参与和影响规划轨迹的输出，提升复杂场景处理能力和长时序推理能力；同时能够以文字形式简要呈现推理过程，解决端到端的“黑盒”问题。VLA司机大模型与 i8 同步量产交付，并于2025.9.10全量推送至ADmax车型（Thor-U 平台与 Orin-X 平台）。

二、世界模型：数据闭环驱动，增强环境感知与仿真可靠性

世界模型：智慧的核心在于反事实推理

世界模型最早出现在机器学习领域： 2018年Jürgen Schmidhuber在NeurIPS发表了一篇以“world models”命名的文章，以认知科学中人脑mental model来类比世界模型，认为mental model参与了人类的认知、推理、决策过程。该框架图有三个主要的模块组成：即 Vision Model（V）， Memory RNN（M）和 Controller (C)，世界模型这种RNN架构，非常不适合GPU加速，所以前期发展缓慢。

世界模型最核心的能力在于反事实推理。即便对于数据中没有见过的决策，在世界模型中都能推理出决策的结果。 AI研究人员对world model的追求，是试图超越数据，进行反事实推理，回答what if问题能力的追求。这是一种人类天然具备，而当前的AI还做得很差的能力。一旦产生突破，AI决策能力会大幅提升，实现全自动驾驶等场景应用。

世界模型：从“感知模仿”到“认知思考”的演进

世界模型通过自监督学习的方式从大量未标注的数据中提取出有价值的信息，从而增强模型的性能和效率。在驾驶场景生成方面，世界模型可以创造多样化、真实化的驾驶环境，丰富训练数据集，提高自动驾驶系统的鲁棒性和适应性。在规划和控制策略方面，世界模型也可以帮助车辆进行未来预测和决策制定，提升行驶安全性和稳定性。

海外先验迭代-Wayve生成式世界模型

GAIA-1 是用于端到端自动驾驶环境建模与决策的生成式世界模型，采用 “视频 + 文本 + 动作” 多模态输入方式，通过大规模英国城市驾驶数据训练，可学习预测视频序列后续帧，具备类大型语言模型（LLM）的自回归预测能力。该模型突破标准生成视频模型局限，能理解并分解车辆、行人、道路布局、交通信号灯等核心驾驶概念，精准控制自车行为与场景特征；更可通过多样化驾驶数据学习世界潜在生成规则，综合自然结构与模式，生成高度逼真且多样的驾驶场景，为具身人工智能落地（系统与世界互动、理解并重现规则）迈出关键一步。此外，GAIA-1 通过整合世界模型与驾驶模型，提升对现实场景的泛化能力，未来还将完善预测、模拟、鸟瞰图生成等方法；同时支持训练数据外的场景推断，能生成错误驾驶行为的模拟数据，为自动驾驶安全评估提供受控环境。

三、融合互补，共筑安全与体验新壁垒

双路径：世界模型聚焦视觉-运动规律，VLA深耕多模态融合

当前世界模型主要聚焦在视觉-运动空间，而VLA将视觉与语言紧密耦合，多模态融合程度更深。World Model（世界模型）本身并不一定牵涉语言模态，它更多是对视觉和运动数据的生成与理解。不过在具体实现上，世界模型也可以结合语言信息。核心是通过视频预测或其它方式，学习真实世界本质的时空规律。借助世界模型进行仿真（理解世界运行规律并生成有效数据难例数据）和强化学习交互（提供虚拟环境和预测能力）。 VLA天生就是多模态融合的产物，视觉和语言信息在模型内部被打通，必要时还可以接入语音、地图等模态，主张通过思维链理解事物，透过自然语言描述模型对场景的理解，提升泛化能力。

VLA多模态的核心挑战：解决资源效率，保障稳健安全

应用大模型的过程中，解决软硬件资源的效率问题。1）系统集成复杂性：集成感知、推理、控制等各种模块会形成难以优化和维护的复杂架构。2）算力与能耗需求：大规模VLA 系统的能耗与算力需求阻碍了其在嵌入式或移动平台上的部署。3）实时推理限制：由于自回归解码器的顺序特性以及多模态输入的高维度，实现资源受限硬件上的实时推断依然很困难。保障模型稳健安全的能力 4）多模态对齐：将视觉、语言和动作融为一体的控制策略，在遇到意外环境变化时会产生安全薄弱环节。5）泛化与评估：数据集偏差和定位错误损害了模型的泛化能力，常导致在分布外任务上失效。6）鲁棒性与可靠性：对环境变化的鲁棒性以及隐私与偏见缓解等伦理考量，又为社会和法规层面增添了新的挑战。

世界模型&强化学习是VLA路径玩家的下一发力重心

理想MindVLA 依托自研的云端统一世界模型，该模型融合了重建与生成技术。其中，重建模型具备三维场景还原能力，生成模型则可实现新视角补全以及未见视角预测。通过将这两种技术路径相结合， MindVLA 构建出贴近真实世界、符合物理世界规律的仿真环境，为解决训练偏差问题提供了有效方案。

小鹏汽车正着手开发世界模型(World Model），作为“云端模型工厂”的重要一环，支持基座模型的性能优化。根据小鹏汽车XPENG公众号资讯可知，小鹏的世界模型是一种实时建模和反馈系统，能够基于动作信号模拟出真实环境状态，渲染场景，并生成场景内其他智能体（也即交通参与者）的响应，从而构建一个闭环的反馈网络，帮助基座模型不断进化，逐渐突破过去“模仿学习”的天花板。

有效数据量决定模型迭代能力

我们认为数据闭环是企业构筑辅助驾驶能力领先性的核心，累计销量：新势力车企普遍通过全量数据采集来构建竞争优势，即使低配车型也贡献数据（选自2023年以来累计零售销量，忽略衰减体量）高配硬件车型累计销量：数据采集的前提条件是硬件基础，即使车辆没有激活或者使用智能驾驶软件（车企智驾版本销量占比为估算值）。用户活跃量：活跃用户数据是“更好的真实样本”，尤其对解决长尾问题至关重要。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）