如何看待理想汽车在AI方面的布局？

提问时间：2025/02/18
浏览次数：363
提问者：匿名用户
举报
分享微信 QQ 微博

如何看待理想汽车在AI方面的布局？

标签

理想汽车
AI

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2025/02/18 16:20

李想认为，未来的理想汽车要做的不仅仅是汽车的智能化，而是人工智能的汽车化。

1.智能驾驶：端到端+VLM 实现 L3，世界模型探索 L4

从理想汽车关于 AI 布局的三阶段来看，增强能力阶段、成为助手阶段、Agent 阶段分别对应智能驾驶中的 L3/L4/L5 功能。理想汽车当前版本采用端到端+VLM 的双模型架构，预计 2025 年完成 L3 智能驾驶功能的上车。未来，理想汽车有望将视觉语言模型 VLM 部署到车端芯片，让自动驾驶具备了应对未知场景的逻辑思考能力，通过更强的认知和思考能力实现 L4 智能驾驶。

当前车端模型：端到端+VLM 模型是 L3 主要解决方案。在计算过程中，端到端大模型输入数据为传感器信息，输出结果为规划路线结果，在评价过程中难以确定模型学习的准确性，即目前仍处在探索端到端大模型能力上限的阶段。理想汽车补充 VLM 模型，通过收集 rule-based 成果，让端到端大模型有“参考答案”。VLM 模型架构与 rule-based 车端落地方式基本一致，将过去研发人员完成的规则制定装入模型中，成为端到端大模型的“参考答案”。整体架构来看，双系统设计类似于人类大脑的慢速和快速思维过程，类似于使用“参考答案”实现功能，可以有效地适应各种复杂的驾驶场景。

L3 到 L4 升级的过程中，对MPI 要求更高，模型升级路径或放弃 Learning by Watching 的模式。目前处于 L3 到 L4 升级的关键节点。其中，MPI 数据的优化（Miles Per Intervention，每两次人工干预之间行驶的平均里程数）成为技术迭代的核心参数指标，当下 MPI 仍处 200km 以下水平，仍需要较长的优化过程。MPI 的提升本质是安全性的提升，在正常运行环境下需要保证接管次数的下降和执行效率的提升，同时极端环境中仍需要保持稳定。对应路径来看，当下仍采用 Learning by Watching 的方式，即模仿人类行为完成驾驶的高阶动作。Learning by Watching 存在几个缺陷：（1）以行为为导向的学习模式，无法深入理解人类驾驶员思考和习惯，单纯的行为模仿或无法形成逻辑和数据的闭环。（2）目前传感器数据无法达到人类对驾驶的判断，包括听觉、平衡性感知等。（3）Corner Case 存在无限性，长尾数据无法充分识别并建立对应的场景机制，车辆的思考能力是面对长尾数据的主要解决方式。（4）人类对智能驾驶的需求是要超越人类的驾驶能力，而非简单模仿，同时要求智能驾驶在更复杂的场景中实现更好的效果。

Learning by Practicing 或成为后续主要迭代方向，到 L4 车辆或具备“智能体”的能力。Learning by Practicing 中，生成式的视觉模型是构建世界模型主要方法，通过模型预测生成视觉方式完成车辆世界认知构建，并具备预测生成能力。车辆具备对未来预测的能力和判断能力，在准确性提升后保持高阶功能的安全性。

世界认知模型：Learning by Practicing 主要训练方向，或成为实现 L4 的主要解决方案。原始图像空间中学习世界模型并不适合自动驾驶，（1）交通灯、标识牌很容易在预测图像中被遗漏；（2）数据转化需要较长的时间和过程。世界模型将世界建模与模仿学习相结合，作为辅助任务实现数据集中样本复杂度的降低。同时，世界认知模型通过分解的世界模型和奖励函数来丰富静态数据集的标签，通过动态规划优化标签。世界认知模型可以认为是端到端大模型的“教材”，用标准化的内容帮助大模型完成世界认知和数据信息的构建，成为智能驾驶端到端大模型迭代的核心一环。同时在未来 Learning by Practicing 的训练模式中，通过世界模型提高模型的认知能力或成为实现 L4 智能驾驶的关键。

2.空间智能：Mind GPT 3.0 即将发布，理想同学多端应用

从理想规划的 AI 三阶段来看，增强能力阶段、成为助手阶段分别对应 ChatGPT 的 3.0 和 4.0 版本，ChatGPT 尚未达到 Agent 阶段。复盘 Chat GPT 的发展历程来看， 2018 年 ChatGPT 1.0 首发，基于 5000 万篇文章进行训练，参数规模 1.17 亿，可以生成有一定质量的文本；2019 年 ChatGPT 2.0 发布，参数规模 15 亿，能够捕捉更复杂的语言模式和结构；2020 年 ChatGPT 3.0 发布，参数规模 1750 亿，能够捕捉到语言中的细微模式和复杂的结构，在语言任务中表现出色，能够处理包括文本生成、翻译、摘要、问答等在内的多种语言任务，具备“增强能力”的特征。ChatGPT 4.0 预计将在语言理解的深度上实现新的突破，能够更准确地捕捉语言的细微差别，包括语境、语义和情感等复杂性。从行业进展来看，ChatGPT 3.0 发布带动了谷歌、百度、英伟达、Meta 等优质科技企业推动自然语言大模型发展。

理想汽车 Mind GPT 多次迭代，目前预训练数据规模已达到 10 万亿 Token 级别，与 ChatGPT2.0 接近。理想 Mind GPT 共经历了三代。（1）第一代：2023 年 4 月，Mind GPT 1.0 发布。2023 年底随着 OTA 5.0 上车，是最早的车端语言大模型。（2）第二代：2024 年中 Mind GPT 2.0 发布，模型效果、训练效率和推理效率均有提升。模型架构上调整为 MoE（混合专家模型）加 Transformer 的结构，模型规模翻倍但推理成本与 Mind GPT 1.0 基本保持一致。（3）第三代：Mind GPT 3.0。Mind GPT 3.0 强化了语言模型。未来，Mind GPT 将有望从语音、视觉、语言等多模态实现融合，能够理解不同的模态，在一个模型内完成从感知到认知再到表达的完整能力。

智能座舱：语言交互类大模型加速上车，充分补充语料库和自然语言处理能力。理想同学扩展至手机端，具备知识问答、看世界、思考过程的能力，在空间智能领域和语料库积累上逐步追赶华为、小米等手机厂商。

3.智能拓展：智能工业和智能商业有望持续扩张

智能工业：理想全栈自研了智能制造系统、视觉算法、设备、质量预测模型等，驱动提高制造效率，快速迭代生产技术，达成更高生产效率和产品质量。以理想智能工厂为例，通过 Li-MOS 系统，理想汽车的生产系统与销售系统实现了紧密集成。当系统接收到销售端的多车型整车订单及中长期预测后，便会自动排产，生成精确到工位、细化到排序的整车生产计划，并通过 LI-SCM 系统自动向供应商发送物料采购计划。从需求到采购订单全过程无需任何人为干预，在保证物料齐套的同时，大幅度提高业务效率，MRP 准确率达到 100%。理想汽车工厂完成生产销量提升、产能稳定性升级，同时缩减新建产能的时间和成本。

智能商业：理想通过大模型技术与商业领域数据和知识的深度结合，构建了一批具备零售、营销、客服、金融反欺诈、财经分析等能力的 AI 助手。从目前理想 AI 的进展来看，2025 年或全面进入增强能力阶段。理想空间智能、智能驾驶即将进入增强能力阶段，同时智能工业有望为理想后续销量增长提供生产保证，智能商业有望打开合作版图和合作空间。

参考报告

理想汽车研究报告：如何看待理想汽车在AI的布局？.pdf

理想汽车研究报告：如何看待理想汽车在AI的布局？2024年12月25日，理想汽车发布2024AITalk。李想在理想AITalk中，表明理想汽车将AI作为未来的核心战略。理想汽车的AI发展过程，主要分为三个阶段：增强能力阶段、成为助手阶段、硅基家人（Agent）阶段。如何看待理想汽车在AI的布局？智能驾驶：三阶段来看，增强能力阶段、成为助手阶段、Agent阶段分别对应智能驾驶中的L3/L4/L5功能。端到端+VLM模型是L3主要解决方案，模型升级路径或从LearningbyWatching转化为LearningbyPracticing，到L4车辆或具备“智能体”的能力，...

查看详情

如何看待理想汽车在AI方面的布局？

1.智能驾驶：端到端+VLM 实现 L3，世界模型探索 L4

2.空间智能：Mind GPT 3.0 即将发布，理想同学多端应用

3.智能拓展：智能工业和智能商业有望持续扩张

理想汽车研究报告：如何看待理想汽车在AI的布局？.pdf

理想汽车成功与失败经历复盘

理想汽车智能驾驶技术进展如何？

理想汽车新品与海内外布局情况如何？

理想汽车发展历程、产品矩阵、营收与销量分析

理想汽车历史经营与战略分析

如何理解理想汽车的护城河？

理想汽车如何构建护城河？

理想汽车经营看点在哪？

理想汽车产品矩阵与技术梳理

理想汽车业务布局情况如何？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王