如何看待理想汽车在AI方面的布局?

如何看待理想汽车在AI方面的布局?

最佳答案 匿名用户编辑于2025/02/18 16:20

李想认为,未来 的理想汽车要做的不仅仅是汽车的智能化,而是人工智能的汽车化。

1.智能驾驶:端到端+VLM 实现 L3,世界模型探索 L4

从理想汽车关于 AI 布局的三阶段来看,增强能力阶段、成为助手阶段、Agent 阶段 分别对应智能驾驶中的 L3/L4/L5 功能。理想汽车当前版本采用端到端+VLM 的双模型 架构,预计 2025 年完成 L3 智能驾驶功能的上车。未来,理想汽车有望将视觉语言模 型 VLM 部署到车端芯片,让自动驾驶具备了应对未知场景的逻辑思考能力,通过更 强的认知和思考能力实现 L4 智能驾驶。

当前车端模型:端到端+VLM 模型是 L3 主要解决方案。在计算过程中,端到端大模型 输入数据为传感器信息,输出结果为规划路线结果,在评价过程中难以确定模型学习 的准确性,即目前仍处在探索端到端大模型能力上限的阶段。理想汽车补充 VLM 模 型,通过收集 rule-based 成果,让端到端大模型有“参考答案”。VLM 模型架构与 rule-based 车端落地方式基本一致,将过去研发人员完成的规则制定装入模型中, 成为端到端大模型的“参考答案”。整体架构来看,双系统设计类似于人类大脑的慢 速和快速思维过程,类似于使用“参考答案”实现功能,可以有效地适应各种复杂的 驾驶场景。

L3 到 L4 升级的过程中,对MPI 要求更高,模型升级路径或放弃 Learning by Watching 的模式。目前处于 L3 到 L4 升级的关键节点。其中,MPI 数据的优化(Miles Per Intervention,每两次人工干预之间行驶的平均里程数)成为技术迭代的核心参数指 标,当下 MPI 仍处 200km 以下水平,仍需要较长的优化过程。MPI 的提升本质是安全 性的提升,在正常运行环境下需要保证接管次数的下降和执行效率的提升,同时极端 环境中仍需要保持稳定。对应路径来看,当下仍采用 Learning by Watching 的方式, 即模仿人类行为完成驾驶的高阶动作。Learning by Watching 存在几个缺陷:(1) 以行为为导向的学习模式,无法深入理解人类驾驶员思考和习惯,单纯的行为模仿或 无法形成逻辑和数据的闭环。(2)目前传感器数据无法达到人类对驾驶的判断,包括 听觉、平衡性感知等。(3)Corner Case 存在无限性,长尾数据无法充分识别并建立 对应的场景机制,车辆的思考能力是面对长尾数据的主要解决方式。(4)人类对智能 驾驶的需求是要超越人类的驾驶能力,而非简单模仿,同时要求智能驾驶在更复杂的 场景中实现更好的效果。

Learning by Practicing 或成为后续主要迭代方向,到 L4 车辆或具备“智能体”的 能力。Learning by Practicing 中,生成式的视觉模型是构建世界模型主要方法, 通过模型预测生成视觉方式完成车辆世界认知构建,并具备预测生成能力。车辆具备 对未来预测的能力和判断能力,在准确性提升后保持高阶功能的安全性。

世界认知模型:Learning by Practicing 主要训练方向,或成为实现 L4 的主要解决 方案。原始图像空间中学习世界模型并不适合自动驾驶,(1)交通灯、标识牌很容易 在预测图像中被遗漏;(2)数据转化需要较长的时间和过程。世界模型将世界建模与 模仿学习相结合,作为辅助任务实现数据集中样本复杂度的降低。同时,世界认知模 型通过分解的世界模型和奖励函数来丰富静态数据集的标签,通过动态规划优化标 签。世界认知模型可以认为是端到端大模型的“教材”,用标准化的内容帮助大模型 完成世界认知和数据信息的构建,成为智能驾驶端到端大模型迭代的核心一环。同时 在未来 Learning by Practicing 的训练模式中,通过世界模型提高模型的认知能力 或成为实现 L4 智能驾驶的关键。

2.空间智能:Mind GPT 3.0 即将发布,理想同学多端应用

从理想规划的 AI 三阶段来看,增强能力阶段、成为助手阶段分别对应 ChatGPT 的 3.0 和 4.0 版本,ChatGPT 尚未达到 Agent 阶段。复盘 Chat GPT 的发展历程来看, 2018 年 ChatGPT 1.0 首发,基于 5000 万篇文章进行训练,参数规模 1.17 亿,可以 生成有一定质量的文本;2019 年 ChatGPT 2.0 发布,参数规模 15 亿,能够捕捉更复 杂的语言模式和结构;2020 年 ChatGPT 3.0 发布,参数规模 1750 亿,能够捕捉到语 言中的细微模式和复杂的结构,在语言任务中表现出色,能够处理包括文本生成、翻 译、摘要、问答等在内的多种语言任务,具备“增强能力”的特征。ChatGPT 4.0 预 计将在语言理解的深度上实现新的突破,能够更准确地捕捉语言的细微差别,包括语 境、语义和情感等复杂性。从行业进展来看,ChatGPT 3.0 发布带动了谷歌、百度、 英伟达、Meta 等优质科技企业推动自然语言大模型发展。

理想汽车 Mind GPT 多次迭代,目前预训练数据规模已达到 10 万亿 Token 级别,与 ChatGPT2.0 接近。理想 Mind GPT 共经历了三代。(1)第一代:2023 年 4 月,Mind GPT 1.0 发布。2023 年底随着 OTA 5.0 上车,是最早的车端语言大模型。(2)第二 代:2024 年中 Mind GPT 2.0 发布,模型效果、训练效率和推理效率均有提升。模型 架构上调整为 MoE(混合专家模型)加 Transformer 的结构,模型规模翻倍但推理成 本与 Mind GPT 1.0 基本保持一致。(3)第三代:Mind GPT 3.0。Mind GPT 3.0 强化 了语言模型。未来,Mind GPT 将有望从语音、视觉、语言等多模态实现融合,能够 理解不同的模态,在一个模型内完成从感知到认知再到表达的完整能力。

智能座舱:语言交互类大模型加速上车,充分补充语料库和自然语言处理能力。理想 同学扩展至手机端,具备知识问答、看世界、思考过程的能力,在空间智能领域和语 料库积累上逐步追赶华为、小米等手机厂商。

3.智能拓展:智能工业和智能商业有望持续扩张

智能工业:理想全栈自研了智能制造系统、视觉算法、设备、质量预测模型等,驱动 提高制造效率,快速迭代生产技术,达成更高生产效率和产品质量。以理想智能工厂为例,通过 Li-MOS 系统,理想汽车的生产系统与销售系统实现了紧密集成。当系统 接收到销售端的多车型整车订单及中长期预测后,便会自动排产,生成精确到工位、 细化到排序的整车生产计划,并通过 LI-SCM 系统自动向供应商发送物料采购计划。 从需求到采购订单全过程无需任何人为干预,在保证物料齐套的同时,大幅度提高业 务效率,MRP 准确率达到 100%。理想汽车工厂完成生产销量提升、产能稳定性升级, 同时缩减新建产能的时间和成本。

智能商业:理想通过大模型技术与商业领域数据和知识的深度结合,构建了一批具备 零售、营销、客服、金融反欺诈、财经分析等能力的 AI 助手。 从目前理想 AI 的进展来看,2025 年或全面进入增强能力阶段。理想空间智能、智能 驾驶即将进入增强能力阶段,同时智能工业有望为理想后续销量增长提供生产保证, 智能商业有望打开合作版图和合作空间。

参考报告

理想汽车研究报告:如何看待理想汽车在AI的布局?.pdf

理想汽车研究报告:如何看待理想汽车在AI的布局?2024年12月25日,理想汽车发布2024AITalk。李想在理想AITalk中,表明理想汽车将AI作为未来的核心战略。理想汽车的AI发展过程,主要分为三个阶段:增强能力阶段、成为助手阶段、硅基家人(Agent)阶段。如何看待理想汽车在AI的布局?智能驾驶:三阶段来看,增强能力阶段、成为助手阶段、Agent阶段分别对应智能驾驶中的L3/L4/L5功能。端到端+VLM模型是L3主要解决方案,模型升级路径或从LearningbyWatching转化为LearningbyPracticing,到L4车辆或具备“智能体”的能力,...

查看详情
相关报告
我来回答