2026年汽车与汽车零部件行业智驾平权系列六：AI智能涌现新阶段，智驾VLA与世界模型之争

来源：长江证券
发布时间：2026/02/27
浏览次数：82
举报

相关深度报告REPORTS

汽车与汽车零部件行业智驾平权系列六：AI智能涌现新阶段，智驾VLA与世界模型之争.pdf

汽车与汽车零部件行业智驾平权系列六：AI智能涌现新阶段，智驾VLA与世界模型之争。引言：AI赋能，智驾进入大模型时代通用人工智能大模型迎来跨越式发展，模型规模、训练范式与推理能力持续突破，为各类AI应用构建了坚实的底层技术底座。智能驾驶本质是“物理AI”的应用，大模型底座技术迭代加速智驾驾驶持续升级。通用大模型能力涌现，赋能智驾模型基座，智驾模型架构持续进阶，逐步进入VLA和世界模型的物理AI时代，迈向智能涌现新阶段。通用大模型能力“涌现”，铸就AI应用底层支撑AI大模型时代，以Transformer架构为技术基底，依托算力的指数级提升与海量多模...

引言：AI 赋能，智驾进入大模型时代

通用人工智能大模型迎来跨越式发展，模型规模、训练范式与推理能力持续突破。以 Transformer 架构为技术基底，依托算力的指数级提升与海量多模态数据的积累，大语言模型实现了从单一语言理解到多模态融合、从专用任务适配到通用能力涌现的关键突破，为各类 AI 应用构建了坚实的底层技术底座。

智能驾驶本质是“物理 AI”的应用，大模型底座技术迭代加速智能驾驶持续升级。通用大模型能力涌现，赋能智驾模型基座，智驾大模型进阶，迈向智能涌现新阶段。智驾本质是将人工智能的感知、决策、规划能力，深度嵌入真实物理世界的动态环境中，通过与物理世界的实时交互完成任务，所有 AI 决策最终都要转化为物理动作并承受物理规律的约束与检验。随着智驾从辅助驾驶向无人驾驶升级，算法技术端逐渐从规则时代到端到端大模型时代，同时引入多模态大语言模型和强化学习，模型架构持续进阶，逐步进入 VLA 和世界模型的物理 AI 时代。

通用大模型能力“涌现”，铸就 AI 应用底层支撑

AI 大模型时代，以 Transformer 架构为技术基底，依托算力的指数级提升与海量多模态数据的积累，大模型实现了从单一语言理解到多模态融合、从专用任务适配到通用能力涌现的关键突破，推动 AI 模型的商业化落地。从分类角度来看，AI 领域大模型覆盖自然语言处理、计算机视觉、多模态交互等核心方向，清晰区分不同维度下大模型的技术特征、代表模型与应用场景。按照输入模态，大模型可分为语言大模型、视觉大模型、语音大模型和多模态大模型等；按照模型架构，可分为卷积神经网络（CNN）、循环神经网络（RNN）、生成对抗网络（GAN）和 Transformer 架构等。

从当前行业趋势来看，大语言模型+Transformer 的模型组合是主流，同时逐步进化到多模态大模型和推理模型。大语言模型（Large Language Model，LLM）是基于 Transformer 架构构建、通过海量文本数据进行无监督预训练得到的大参数量人工智能模型，核心具备对自然语言的理解、生成、推理、翻译等综合能力，能捕捉语言的语义、语法、逻辑及知识关联，适配各类自然语言处理任务，是大模型时代自然语言处理领域的核心基础模型。大型语言模型自 2017 年 Transformer 架构问世，至 2025 年 DeepSeek-R1 推出，历经 BERT、GPT 系列等核心模型迭代，及多模态、推理模型的关键突破，在规模、性能、成本与多模态能力上实现跨越式发展，出现了多轮能力跃迁。

从预训练到后训练对齐，进入“ChatGPT 时刻”

预训练规模化突破，参数跃迁带来模型能力提升，同时后训练引入监督微调和强化学习，进入“ChatGPT 时刻”。2017 年大模型引入 Transformer 架构，为构建能够高精确性和灵活性处理复杂任务的大规模高效语言模型奠定了基础。同时，GPT 模型引入展示了自回归架构和生成能力的强大功能，同时 Scaling Law 显现，强调了规模、数据和计算在实现最先进结果中的重要性，大模型能力进一步提升。GPT 模型从第一代迭代至 GPT3，模型参数量提升至 1750 亿，表明随着模型规模的增长，模型在捕捉复杂模式和泛化到新任务方面变得更好：1）数据集大小：更大的模型需要庞大的数据集进行预训练； 2）计算资源：强大的硬件（如 GPU 和 TPU）的可用性以及分布式训练技术，使得高效训练具有数十亿参数的模型成为可能；3）高效架构：混合精度训练和梯度检查点等创新降低了计算成本，使得在合理的时间和预算内进行大规模训练更加实际。

后训练引入监督微调和强化学习，进一步提升模型能力，提升与人类意图的一致性并减少幻觉（Hallucination）。大模型幻觉是指 LLM 生成与事实不符、无意义或与输入提示矛盾的内容，类似于“一本正经地胡说八道”。2021-2022 年阶段模型训练中引入监督微调（SFT）和基于人类反馈的强化学习（RLHF）等技术，使模型不仅能够准确遵循指令，还能适应新任务并持续改进。通过将人类反馈整合到训练循环中，RLHF 显著增强了模型生成可靠、符合人类输出的能力，为 AI 对齐和性能设定了新标准。同时，OpenAI 于 2022 年 11 月推出了 ChatGPT，这是一种突破性的对话式 AI 模型，专门为自然的多轮对话进行了微调。

模型推理能力飞跃，进入 Agent 时代，AI 应用进入重要拐点

推理能力飞跃，大模型技术从“参数驱动”向“能力驱动”跃迁。多模态大型语言模型（MLLMs）引入，通过将文本、图像、音频和视频整合到统一系统中，扩展了传统语言模型的能力，实现了更丰富的交互和更复杂的问题解决。MLLMs 革新了医疗保健（诊断）、教育（互动学习）、自动驾驶和创意产业（多媒体制作）等领域，处理多种模态的能力提升了模型应用范围和能力上限，例如 GPT-4V 和 GPT-4o。 AI 模型开发开始强调提升推理(Reasoning)，从简单的模式识别转向更逻辑化和结构化的思维过程。推理模型采用“长链思维”，大幅提升模型解决复杂推理任务能力。2024 年 9 月 12 日 OpenAI 发布的 o1-preview，采用了“长链思维”（Long CoT），即内部的推理轨迹，使模型能够通过分解问题、批判自己的解决方案并探索替代方案来“思考” 问题。

AI 应用商业化落地拐点开始于 2024 年 Q3，本质是模型推理能力飞跃，引入 Agent 模式，实现功能体验的质变。2024 年 9 月，OpenAI 发布首个推理模型 o1-preview，实现推理能力一大飞跃，真正奠定了本轮周期下产品化的拐点。其核心理念是，模型在生成最终答案之前，花费额外的计算资源来生成一段内部的思考链（CoT，chain of thought），使其能够将复杂问题分解为更小、更易管理的步骤，从而在需要逻辑、数学和规划的复杂任务上实现性能的巨大飞跃。这标志着模型从静态的知识检索向动态的问题解决能力的演进。

从 o 系列推理模型开始，大模型实现对工作流步骤的反复思考、拆解、理解、推理，本轮技术进步标志着 Agent 产品化探索落地的开始。o 系列是本轮技术周期下产品化拐点的基础主要由两点导致：第一，在 o 系列之前基础模型能力不足以实现产品化；第二，过往已有的 Copilot 模式不具备产品化和商业化属性，Agent 才是破局之道。此前模型能力不足。推理范式的兴起意味着 AI Agent 落地的可能，核心在于其从简单的模式识别转向更逻辑化和结构化的思维过程。过去，单纯基于 LLM 的 Chatbot 只是能简单地回答用户问题，但这并不是 AI 与人类交互的终极形式，世界所需要的是 AI 能够为用户解决真实世界的问题，这需要一套完善的执行系统完成交付，AI Agent 因其泛用性和实用性很可能成为产品端破局的关键。

成本高效推理模型及开源，AI 进入“DeepSeek”时刻

DeepSeek-R1 代表了成本效率的大飞跃，利用专家混合架构(MoE)和优化算法，与许多美国模型相比，运营成本大幅降低。2025 年 1 月下旬，DeepSeek 发布 DeepSeekR1-Zero 和 DeepSeek-R1，展示了卓越的推理能力和极低的训练成本。DeepSeek-R1 纳入了一组有限的高质量冷启动数据和额外的 RL 训练，模型经历了多个微调和 RL 阶段，包括拒绝采样和第二轮 RL 训练，以提高其通用能力和与人类偏好的一致性。 DeepSeek-R1 利用先进的强化学习技术，这些模型证明了高性能推理可以在没有通常与尖端 AI 相关的巨额计算费用的情况下实现。 DeepSeek 开源性质加速尖端 AI 应用的普及化，赋予各行业创新者权利，并强调了可扩展性、对齐性和可访问性在塑造 AI 未来中的重要性。

大模型底座技术迭代，加速智驾算法持续升级

通用人工智能大模型迎来跨越式发展，模型规模、训练范式与推理能力持续突破，加速智能驾驶大模型迭代。智能驾驶从 2023 年开始，特斯拉 FSD V12 引领，进入到“端到端”大模型时代，大模型时代智驾参数量大幅提升，在车端的模型参数规模普遍已经达到数十亿参数门槛，云端模型参数规模达到百亿级别，Scaling Law 持续在智驾中体现。同时引入多模态大语言模型，“端到端”模型向 VLA 范式演进，加强模型在多模态的理解能力，提升深度推理与决策的能力，逐步具备长思维链（CoT）能力，进一步提升泛化能力和增强模型动作的可解释性。在模型训练方面，借鉴 DeepSeek 训练方式优点，强化学习逐步迁移应用至端到端智能驾驶领域，借助多阶段强化学习训练机制，提升模型训练效率和降低训练成本，使模型规模扩展的 "规模定律（Scaling laws）" 持续显现。

智驾大模型进阶，迈向智能涌现新阶段

从规则时代到大模型时代，“端到端”智能驾驶借助大规模高质量人类驾驶数据实现驾驶行为的模仿，帮助智驾摆脱规则限制，叠加 Scaling laws，实现初代的泛化性能，但初代“端到端”模型，一方面，模仿学习模式虽可趋近人类驾驶水平，但难以突破人类能力的上限，同时受到高质量场景数据的稀缺性与驾驶数据质量的不均衡性的影响；另一方面，“端到端”模型偏“黑盒”的方式也使得模型训练、调整、问题溯源成为难点。随着 DeepSeek-R1 模型基于纯强化学习的创新技术路径展现出独特优势，强化学习逐步迁移应用至端到端智能驾驶领域，借助多阶段强化学习训练机制，提升模型训练效率和降低训练成本，使模型规模扩展的 "规模定律（Scaling laws）" 持续显现。同时引入多模态大语言模型，“端到端”模型向 VLA 范式演进，加强模型在多模态的理解能力，提升深度推理与决策的能力，逐步具备长思维链（CoT）能力，进一步提升泛化能力和增强模型动作的可解释性，甚至展现出超越人类思维局限的潜力。同时，“端到端”智驾模型通过与世界模型生成的仿真环境进行互动，可以使模型对真实世界的物理规则拥有更深的理解，智能驾驶逐步进入物理 AI 时代，迈向智能涌现。

特斯拉引领，智驾大模型进入“端到端”时代

自动驾驶经历从规则模型走向端到端大模型，并逐步向 VLA 和世界模型演进。回顾自动驾驶的发展历程，特斯拉从早期的神经网络 Hydra Net，到引入 BEV + Transformer，实现感知端到端，再到转向全面“端到端”大模型，在智驾算法方面持续引领。特斯拉引领，自动驾驶架构的历史演进主要经历四个主要阶段，当前智驾已经演进到 VLA 和世界大模型时代。1）第一阶段：感知层面大模型引入，形成感知“端到端”，决策段主要采用规则方式；2）第二阶段：决策规划模型化，预测、决策、规划的功能模块逐渐集成到同一个神经网络模型，但是感知和预测决策规划仍然被分成两个主要模块； 3）第三阶段：两段式“端到端”阶段，整体结构与上一阶段比较类似，包括感知和决策控制两个模块，但是网络结构和训练方案整体差异存在差异，采用统一的全局最优目标进行训练，模块间采用隐式表达式特征信息传递，替代人为接口定义；4）第四阶段：一段式“端到端”（One Model），不再有感知、决策规划等功能的明确划分。从原始信号输入到最终规划轨迹的输出直接采用同一个深度学习模型。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）