2025年具身智能前瞻系列深度报告：从线虫转向复盘至行动导航，旗帜鲜明看好物理AI

来源：国金证券
发布时间：2025/07/23
浏览次数：311
举报

相关深度报告REPORTS

具身智能前瞻系列深度报告：从线虫转向复盘至行动导航，旗帜鲜明看好物理AI.pdf

具身智能前瞻系列深度报告：从线虫转向复盘至行动导航，旗帜鲜明看好物理AI。从生物智能五阶段映射具身智能，模拟、规划能力是当前缺失环节。具身智能发展至今，从物理形态到大脑机理，机器人无一不在以“仿生”的脉络发展演绎。我们认为，虽然目前人形机器人的产业发展阶段尚处早期，但市场往往会高估原子层面的变化，而低估比特层面的变化——具身智能模型侧的发展日新月异，因而我们试图在本篇报告中详细梳理生物智能五阶段的变化，并逐阶段地映射产业界的产品形态与模型算法。生物体亿万斯年的演化历程，蕴含着解读目前具身智能发展阶段的钥匙，我们认为，当前具身智能真正缺乏的是第三阶...

（报告出品方：国金证券）

1. 从生物智能五阶段映射具身智能，模拟、规划能力是当前缺失环节

具身智能发展至今，从物理形态到大脑机理，机器人无一不在以“仿生”的脉络发展演绎。我们认为，虽然目前人形机器人的产业发展阶段尚处早期，但历史告诉我们市场往往会高估原子层面的变化而低估比特层面的变化——具身智能模型侧的发展日新月异，因而我们试图在本篇报告中详细梳理生物智能五阶段的变化，并逐阶段地映射产业界的产品形态与模型算法。生物体亿万斯年的演化历程蕴含着解读目前具身智能发展阶段的钥匙，我们认为，当前具身智能真正缺乏的是第三阶段的生物智能——模拟学习的能力，而物理 AI 正是构建模拟学习的核心。

1.1 阶段一（关联性学习）：线虫学会“转向”，“行动导航”是扫地机器人落地前提

生物智能的诞生最早起源自早期的两侧对称生物学会了“行动导航”，其中最有代表性的案例是“线虫学会了转向”。实现早期的“行动导航”或者“转向”至少需要四样东西 1）便于转弯的“两侧对称结构”；2）用于检测和将刺激归类为好或者坏的“效价”神经元；3）用于将输入整合为单个转向决策的“大脑”；4）根据内部状态调节效价的“情感”。

两侧对称结构：为什么两侧对称结构更适合导航？因为相对于珊瑚虫、海葵和水母这类径向对称生物，两侧对称生物在移动时只需要考虑向左转还是向右转，而径向对称生物则需要在无数方向中进行选择。两侧对称无疑是运动系统最为高效的设计——现代工程学中的汽车、飞机、船只、潜艇都是两侧对称的，两侧对称能够使运动装置针对单一方向进行优化，同时通过增加转向机制来解决导航问题。

效价神经元：决定左转或者右转的因素取决于外界刺激的“效价”，“效价”是指以线虫为代表的两侧对称生物对刺激物做出接近或者避开的反应，对于线虫而言，它们的神经元通常能够感知气味、温度以及光线强度等外界刺激，对于线虫而言，通常捕食者的气味、高温、强光会产生负效价，而食物的气味、适宜的温度、弱光会产生正效价。

大脑：效价神经元的机制会带来两个问题，其一是当某单一维度的神经元同时产生了正负两种效价——比如同时感知到了食物的气味以及有害物质比如铜的气味，嗅觉神经元的效价最终要如何呈现？其二是即使我们仅考虑气味、温度、光强这三个维度，对于线虫而言，这也是一个典型的“多传感器融合”案例（用生物学的话说，叫做“跨感觉模式整合输入信息”）——如果不同维度的神经元产生了正负两个方向的效价，“转向”最后听谁的？对于问题一，答案是取决于正负效价的强度（食物气味浓度高还是铜的浓度高）；对于问题二，早期两侧对称生物的大脑会根据不同类型神经元的效价反馈形成一种“投票”机制，从而权衡跨感觉模型整合输入信息的问题，输出一致性的转向决策。

情感：两侧对称生物的效价并非是一成不变的，它取决于生物的内部状态，早期“情感” 的雏形本质上是生物为灵活调整不同内部状态下，对于外部刺激的产生的效价对应的反应强度而诞生的一种机制。比如，一只线虫是否要转向食物气味浓度高于铜的浓度的区域，也跟它的饥饿程度密切相关（如果它吃饱了，它就不会冒着被铜伤害的风险去转向食物，如果它处于饥饿状态，那么它就会冒着被铜伤害的风险转向去获取食物）。如果我们建立一个唤醒度与正负效价的关系，会得到四个象限：1）内部状态-高唤醒度+外部刺激 -正效价，对应情感状态为兴奋、高兴、狂喜（对于线虫来说是加速转向产生这种刺激的区域）；2）内部状态-高唤醒度+外部刺激-负效价，对应情感状态为焦虑、紧张、难过（对于线虫来说是加速逃开产生这种刺激的区域）；3）内部状态-低唤醒度+外部刺激-正效价，对应情感状态为满足、平静、放松（对于线虫来说倾向于停在原地）；4）内部状态-低唤醒度+外部刺激-负效价，对应情感状态为沮丧、心烦、无聊（对于线虫来说倾向于停在原地）。

1990 年，iRobot 公司成立，并在 2002 年推出了扫地机器人 Roomba，我们认为这其实是具身智能最早获得商业化落地的雏形。第一代 Roomba 扫地机与线虫一样拥有两侧对称结构，具备感受墙壁与充电桩的传感器以及根据内部状态开关传感器的能力，唯一与早期两侧对称生物不同的是，第一代 Roomba 由于作业场景较为单一、传感器类型较少，因而不会面临单一维度正负效价问题以及“多传感器融合”问题，而这其实直到约 20 年后才会成为汽车智能驾驶中面临的重要问题之一（摄像头、超声波、毫米波与激光雷达的多传感器融合）。正如生物智能的起源最早来自“转向”，“行动导航”也是商业化具身智能诞生的前提。在生物学视角下，类似“线虫学会了转向”这种能力也被称作“条件反射”。我们熟知的巴甫洛夫的狗的故事曾经形象地说明了什么是“非条件反射”（“条件反射→非条件反射”对应“狗吃到食物开始分泌唾液→狗听到摇铃开始分泌唾液”），“非条件反射”能够建立的前提是生物具备了“关联性学习”的能力，“关联性学习”是对未来进行初步“预测”的前提，之所以说是“初步”，原因是在生物智能的第一阶段，早期的两侧对称生物其实并不具备感知空间与时间的能力，而只有将空间与时间信息加入“关联性学习”，才有可能建立“因果”的理解能力，所以这一阶段的“预测”仅仅只能反应局部的相关性（比如对于线虫而言，转向盐水区域寻找食物是条件反射，但如果多次在盐水环境中处于饥饿状态，线虫就会习得逃避盐水区域的非条件反射）。非条件反射是先天的，不需要在与环境的交互中习得，但条件反射是后天的，需要在与环境的交互中建立“关联性学习”。以线虫为代表的早期两侧对称生物虽然只拥有第一阶段的生物智能，但它与第一代 Roomba 扫地机根本性的差异在于持续学习的能力，而非将所有的能力锁死在出厂设定阶段。

1.2 阶段二（强化学习）：鱼类学会“试错”，时序感知+空间感知→基于预期的强化学习

生物智能的第二阶段是早期脊椎动物学会了“吃一堑长一智”，这种简单的“试错机制”构成了“强化学习”的基础。以鱼类为例，鱼类可以在一个复杂的鱼缸迷宫中尝试一些相对随机的游动路线，然后在第一次顺利游出鱼缸迷宫之后，缩短之后每一次遇到类似迷宫路线的闯关时间，这种通过试错学习任意动作系列的能力正是“强化学习”。自 1951 年马文·明斯基构建第一个强化学习算法以来，计算机科学领域一直试图找到更为高效的“奖励函数”以提升强化学习的效果。从生物学的视角而言，“条件反射”与“情感状态” 定义了生物体最初的“奖励函数”（在任何情况下认为什么东西“令人满意”或者“令人不适” 的能力，在“强化学习”中构成了“强化”和“惩罚”两种状态），这被称为“基于实际奖励的强化学习”，对于以鱼类为代表的脊椎动物而言，它已然能够基于“关联性学习”建立的“非条件反射”建立一种更为高级的强化学习能力——“基于预期奖励的时序差分强化学习”。依然以鱼类游出鱼缸迷宫为例，“基于实际奖励的强化学习”是指鱼类需要在真正走出迷宫之后对于随机游动的行为全程进行强化，但如果迷宫过于冗长且复杂，这种针对结果的强化学习就有可能失效；同样的例子下，“基于预期奖励的时序差分强化学习”是指鱼类可以针对迷宫中的一些信号进行强化学习（比如看到光线或者标记意味着距离出口很近了），此时走出迷宫的预期提高，进而形成一个“针对预期奖励的强化点”，距离结果达成路径上的先后顺序形成时间的先后关系，从而有助于缩短试错的时间、建立更长的预测时间窗口。这件事其实并不难理解，当我们在 A 股当中博弈预期的时候，某公司业绩释放是一个结果，但“基于预期奖励的时序差分强化学习”的投资者们往往会在业绩兑现之前得到前瞻性的强化信号，从而提前采取行动。在具身智能落地过程中，有些场景甚至在避免“基于实际奖励的强化学习”，比如对于智能驾驶而言，发生碰撞的奖励函数几乎是-100，且将带来较大现实危害。因而实际训练中应当尽量定位发生碰撞之前的前瞻信号，并对其进行惩罚，从而降低试错带来的损失，延长预测时间窗口。

我们认为，以上这套“预期反馈机制”的形成至少涉及到时间感知和空间感知两个前提，从生物学角度而言，时间感知需要基底神经节和多巴胺等生物学基础，而空间感知则涉及到大脑皮质，在此我们不作进一步展开，只针对“时序感知”与“模式识别”这两个概念略作阐述：

时序感知：多巴胺不是对结果的强化信号，而是对“预期奖励”的强化信号，而对预期奖励的强化/惩罚与实际结果的强化/惩罚又可以构成一个四象限分析框架：1）针对“预期奖励”的强化信号+实际结果的强化信号对应满足；2）针对“预期奖励”的强化信号+实际结果的惩罚信号对应失望；3）针对“预期奖励”的惩罚信号+实际结果的强化信号对应惊喜；4）针对“预期奖励”的惩罚信号+实际结果的惩罚信号对应解脱。在“基于实际奖励的强化学习”对“基于预期奖励的时序差分强化学习”的纠错过程中，时序感知得以构建。

模式识别：脊椎动物的大脑皮质已具备无监督学习的三维物体的模式识别功能，在计算机领域，我们一般会通过卷积神经网络（CNN）来理解旋转和三维物体的变化（目前被广泛应用于智能驾驶、医疗影像识别等）。建立在大脑皮质的三维物体模式识别能力与建立在半规管结构上的定位能力（生物需要区分是某物朝自己而来，还是自己朝某物而去），使得以鱼类为代表的早期脊椎动物获得了空间感知的能力，从而可以在各种复杂空间中精细识别信号，开展强化学习。

1.3 阶段三（模拟学习）：大鼠学会“规划”，预测反射激活→预测奖励→预测未然世界

生物智能的第三阶段是早期哺乳动物学会了“谋定而后动”，这种形式被称为“模拟学习”，也就是通过生物体自身的想象，通过预测未来可能发生的事情进行替代性试错和反事实学习。代表案例是以大鼠为代表的早期哺乳动物学会了“规划”的能力。

替代性试错：在选择之前“预演”每一个选项的能力。比如大鼠在地下的分岔口选择左拐或者右拐之前，会停下来左右张望，思考左拐和右拐之后可能带来的收益与风险。在生物智能的第二阶段，生物体已然具备了时序感知与空间感知的能力，因为一旦大鼠对于外部环境有了一定程度上的空间建模，就可以依托想象力在头脑中进行模拟，从而在没有付诸具体实践之前对每个可能的行为选项进行梳理和排序。

反事实学习：在生物智能的第二阶段，无论是“基于实际奖励的强化学习”还是“基于预期奖励的强化学习”，都只能强化那些实际发生过的行为，但生物体实际发生过的行为路径仅仅只是所有可能路径中的一个小子集。而反事实指的是如果某个生物体在过去做出了不同的选择，现在的世界会是什么样子，这直接形塑了生物对于因果关系的感知（X导致了 Y 的意思是，如果 X没发生，那么 Y 也没有发生）。模拟学习本身是一种极为强大的能力，它直接构建了“基于模型的强化学习”与“无模型的强化学习”两种范式。Bennett 认为，AI 领域中的所谓基于模型的强化学习和无模型的强化学习，与动物心理学领域中的目标导向行为和习惯行为，以及行为经济学中的系统 2（慢思考）和系统 1（快思考）本质是一样的。映射到具身智能领域，我们认为，是否应用基于模型的强化学习对于智能驾驶而言也许仅仅是一个“好用”与“可用”之间的区别，而对于一台通用人形机器人而言，是否应用基于模型的强化学习则会直接导致“可用”与“不可用”的区别。

在计算机科学领域，构建基于模型的强化学习是非常困难的，原因主要有二：构建世界模型之难：世界是高度复杂的，同时我们能够获取到的有关世界的信息也是嘈杂且不完整的，且目前并没有足够体量的数据集能够训练出具备空间智能甚至物理 AI 能力的 AI 模型。选择模拟内容之难：即便我们构建了世界模型，选择模拟什么依然是一个灵魂问题。在有限的时间和有限的资源下，不可能对所有可能的情况进行模拟。 2017 年，Google DeepMind 发布 AlphaZero，击败了世界围棋冠军李世石。AlphaZero 是一个基于模型的强化学习算法（在决定下一步之前，它会搜索很多可能的未来做法）。相比于复杂的真实物理世界，围棋世界的特殊性在于 1）围棋中的交互是离散的（存在被穷举的可能），而在真实世界中的动作是连续的，存在无数种可能的身体动作与导航路径；2）围棋世界中关于“世界模型”的信息是确定且完整的，真实世界中的信息则是嘈杂且不完整的；3）围棋世界中的奖励很简单，胜败很分明，但真实世界是一组动态博弈互相竞合的关系。换言之，对于 AlphaZero 而言，构建围棋世界的世界模型是相对容易的，在选择模拟内容方面，AlphaZero 会在每一步只模拟 1000 种可能的棋局（不穷举逻辑上所有的可能性，而只对数十种优秀走法进行验证和扩展），并在不同走法中选择最后胜率最高的一步（比如走法 1 在后续 40 局模拟棋局中胜出 35 局，走法 2 在后续 40 局模拟棋局中胜出 38 局，诸如此类，最终选择胜率最高的走法）。

在梳理清楚 AlphaZero 这个经典案例之后，我们回到生物学视角来看下大鼠是如何选择是否触发模拟以及模拟什么内容的。在本章 1.1 小节，我们曾讨论过早期两侧对称生物的“跨感觉模式整合输入信息”问题——也即，如果不同维度的神经元产生了正负两个方向的效价，“转向”最后听谁的？对于线虫的大脑而言，它可以通过简单的“投票机制”决定最终的效价结果驱动确定性的转向发生。而如果对于第三阶段生物智能的大鼠而言，如果不同维度的“基于预期奖励”的神经元产生了不同方向的信号（有强化有惩罚），那么“行为”最终该听谁的？换言之，如果多个前瞻信号的方向并不一致，此时“行为”该服从何种模式？答案是当出现上述情况时，大鼠会触发模拟，并对“基于实际奖励强化学习”得到的最佳行为进行逐一想象和预测。

1.4 阶段四（模仿学习）：猿猴学会“模仿”，主动教学和逆向强化学习为两种主流算法策略

生物智能的第四阶段是以猿猴代表的灵长类动物学会了“模仿学习”，模仿学习使得群体中的小猴子可以快速习得生存所需的必备技能，也能促使某项技能在群体中跨代际相传。演化史上首次，生物体可以在 DNA 编码和强化学习以外获得某项技能。映射到具身智能，“模仿学习”可以分为“主动教学”与“逆向强化学习”两种策略：

主动教学：1990 年，CMU 一名研究生与他的导师共同开发了一个名为 ALVINN 的 AI 系统。ALVINN 并没有被教导去识别物体、规划未来的动作或理解自己在空间中的位置，相反，ALVINN 采用了一种更为粗暴的策略——通过模仿人类司机来学习。起初，这种策略非常凑效，但很快就暴露出一个问题：ALVINN 只接受过正确的驾驶训练，它从未见过驾驶错误。因此，开发者采取了“主动教学”的策略，以人机共驾的方式帮助 ALVINN 纠正错误，取得了相对传统的模仿学习更好的效果。

逆向强化学习：2010 年，吴恩达团队先采用传统的模仿学习方式让 AI 学习特技飞行专家执行特技飞行时对于遥控器的操作输入，然后训练 AI 去推断专家的预期轨迹，本质是促使 AI 总结人类专家在执行任务时的奖励函数，然后再用这个奖励函数进行自我训练，最终成功训练出一个能够自主驾驶直升机进行空中特技表演的 AI 系统。

1.5 阶段五（语义处理）：人类掌握了“语言”，通过共同想象凝聚共识、形成大规模合作

生物智能的第五阶段是人类掌握了“语言”，经由语言，信息传递效率大大提升，人类进而可以在频繁的交流中建立共同想象、凝聚共识，并最终形成大规模协作。2022 年 11 月以来，由 Chat-GPT引爆的本轮 AI 技术革命正是从 LLM（大语言模型）出发的。我们认为，纵观生物智能演化的五阶段，生物从外界的刺激当中学习、从自己的行为当中学习、从自己的想象当中学习、从他人的行为当中学习，直到经由语言从他人的想象当中学习。可见语言并非智能的本质，语言只是高阶智能的一种表现形式，智能的本质其实是“视情况对外界环境变化做出反馈、并达成目标的能力”。这种能力在线虫身上叫做趋利避害，在鱼类身上叫做“吃一堑长一智”，在小鼠身上叫做“谋定而后动”，在猩猩身上叫做学习族群里长者的行为，在人类身上叫做为了组织大规模生产而通过语言凝聚共识。映射到具身智能产业，目前规则算法（非条件反射）、强化学习、模仿学习等算法模型已取得相对成熟的应用，语义处理能力也在 LLM 的快速迭代下部分意义上实现了“对于智能的压缩”。我们认为，现阶段 Simulation 模拟学习在具身智能的应用则相对初级，从语言出发的 LLM 当拥有“规划”能力后进化为 Agent 智能体（嵌入思维链之后具备了推理的能力）；而从具身智能出发，未来拥有 3D 空间智能的机器人也会在具备“仿真”能力后进化为真正能够与复杂外部世界高频交互，且具备闭环自我学习能力的硅基生命。

2. 复盘智能驾驶模型算法演绎历史，世界模型≈空间智能+物理 AI

正如“线虫学会转向”是生物智能的起点，“行动导航”也是“具身智能”的起点，因而理解智能驾驶算法模型的演绎对于理解机器人具身智能模型的发展阶段以及卡点具有铺垫性的意义，同时由于具身智能产业尚处初期，业内众多明星创业公司的核心创始团队均有过长期智能驾驶行业的从业经验，因而核心人才的迁移也必然伴随核心算法、思想的迁移。通过梳理复盘以特斯拉 FSD 为代表的智驾算法模型的演绎历史，我们可以得出几个结论：1）BEV 架构实现了 2D 图像到 3D 空间的扩展，使得模型具备了初级空间智能的能力（这一点在理想、华为等车企身上更多是通过激光雷达实现的）；2）传统端到端算法的实质是一个无模型的强化学习，是快思考的系统 1；3）现阶段智驾中频繁出现的 VLM、VLA 实质是一个基于模型的强化学习，是慢思考的系统 2；4）是否应用基于模型的强化学习对于智能驾驶而言也许仅仅是一个“好用”与“可用”之间的区别，而对于一台通用人形机器人而言则会直接导致“可用”与 “不可用”的区别，而建立系统 2 的关键正在于模拟与规划的能力，也即物理 AI 的仿真能力。

2.1 智能驾驶 VS 具身智能：众多人形机器人核心创始团队均有过长期智能驾驶从业经验

智能驾驶是具身智能现阶段落地可行性及商业闭环均被验证的重要场景，且目前非常多人形机器人初创公司的核心成员此前均在 L2 或 L4 智能驾驶行业有过长时间的从业经历。因此我们认为，研究智能驾驶算法的演绎脉络对于理解未来人形机器人具身智能模型的发展方向至关重要。同时我们也应看到，智能驾驶与人形机器人具身智能最大的不同在于智能驾驶天然是“反物理交互”的，一切智驾算法、模型的目标都在尽量避免任何可能发生的碰撞事故，为用户提供安全、舒适、高效的驾乘体验；而人形机器人天然就是需要高频与外界环境进行“物理交互”的，无论是家用服务机器人还是商用劳动力替换型机器人，都需要机器人安全、精准、敏捷地与外部世界发生高频的物理交互。

2.2 从特斯拉 FSD 说起：从感知-规划-控制模块化到端到端，VLM/A是基于模型的强化学习

过去 10 年间，特斯拉 FSD 几乎在全球范围内牵引着智能驾驶产业的发展，因此我们认为，详细梳理特斯拉 FSD 模型算法的发展变化对于理解智能驾驶的模型算法具有纲举目张的重要意义。2022 年的 Q4 财报会议上，马斯克曾宣称：“在自动驾驶领域特斯拉处于遥遥领先的绝对第一”。英伟达 CEO 黄仁勋在接受外媒采访时高度评价“特斯拉在自动驾驶方面遥遥领先。特斯拉 FSD V12 真正具有革命性的一点是，它是一个端到端的生成模型。”

我们认为，特斯拉 FSD 智能驾驶算法自 2014 年共经历三大发展阶段：

2014-2016 年，以 Mobileye 为代表的“模块化”规则驱动算法主导智驾领域。这一阶段，以 Mobileye 为代表的主流厂商通过人工编写代码定义驾驶场景（如物体识别、路径规划），模块化分割感知、决策与控制环节。核心问题在于：1）长尾场景覆盖不足：依赖有限规则库，难以应对复杂动态环境（如特斯拉 Model S 2016 年因算法无法识别白色拖车导致致命事故）；2）误差累积与延迟：多模块串联导致信息传递效率低，决策延迟显著，且在传递过程中会不可避免地存在一定程度的信息损耗和复合误差；3）开发成本高企：需海量人工标注与代码编写，维护成本高，难以规模化迭代，同时，为保证感知模块中定位部分的准确，有些公司会使用高成本的高精地图。 2016 年 5 月，全球首例配备 Autopilot 的 Model S 发生致命事故，事故原因在于算法无法区分白色拖车和天空（事故车辆车载传感器为毫米波雷达+摄像头），导致同年 9 月特斯拉和 Mobileye 终止合作。

2017-2022 年，感知模块逐步引入 BEV+OCC 架构实现“端到端”。端到端本质上是使用一个独立系统，代替分散的模块进行驾驶的结构；是基于统一的神经网络，从原始传感器数据输入直接到控制指令输出的连续学习与决策过程。全程不涉及任何显式的中间表示或人为设计的模块，不再需要工程师穷尽驾驶中可能遇到的情况写无穷无尽的代码。同时，集成化的系统表达也让信息传递走向“零损耗”。2017 年，特斯拉首先引入 CNN 网络进行图像识别。2021 年，特斯拉提出 BEV，通过“鸟瞰” ——类似鸟类从高空俯视地面的角度，使用八个摄像头（视觉）捕捉道路和汽车周围环境的 2D 图像，进而使用 Transformer 将平面图转化为 3D 向量空间，帮助汽车准确地感知路面情况。此外，在现实驾驶情景中，还存在大量长尾问题——例如路面的不规则物体和数据集以外的情况，导致视觉系统无法识别所有物体，进而引发安全事故。而人类司机在真实行驶过程中其实并不需要认识所有路面物体，只须意识到需要绕行即可。参照这个理念，特斯拉在 2022 年推出 Occupancy 占用网络，从识别检测进化到识别占用。OCC 将世界划分为网格单元，进而定义单元是空闲还是被占用，不以认识分类为第一优先级，而以空间占用作为第一测量目标。BEV+OCC 同样通过 Transformer 实现，最终输出 Occupancy Volume（物体所占据的体积）和 Occupancy flow（时间流，即物体所占据某个位置的时间）。时间流一般通过光流法判断，光流法假设构成物体的像素亮度恒定且时间连续，通过对比连续两帧图像中的像素位置变化，生成 4D 投影信息。总的来说，OCC 将 BEV 融合空间从 2D 真正升维至 3D，并且在加入时间流信息（基于光流法）之后，完成了由 3D 向 4D 的过度，大大提升了系统的泛化能力。

2023 年至今，追求“一段式端到端”。2022 年后“端到端”算法受到智驾业界广泛追捧，2023 年 8 月，特斯拉发布 FSD V12，将 FSD 原本 30 多万行的 C++代码砍到 3,000 行，进一步展现出“端到端”算法的效率优化幅度。“端到端”算法目前主要分为“一段式”和“两段式”两大流派：1）“一段式”方案是将感知、决策、规划等模块整合到一个模型中，从传感器输入外部环境信息，直接输出自车的行驶轨迹。一段式端到端本质是一个黑盒系统，缺乏透明度，工程师很难去 debug 下限很低的问题，因为不知道问题出在哪里。2）“两段式”方案通常由两个部分组成，即感知模型和规控模型。信息在经过感知模型过滤后，再到规控模型。两段式的好处在于从感知到规控不是完全黑盒，可以进行 debug 系统在决策时的逻辑，因而有更好的可解释性、安全性。但两段式的方案信息经过感知模型过滤后，再到规控模型，损失较多，同时还会面临无法全面理解整个复杂场景、泛化能力和解决 corner case 的能力较弱等问题。因此不难理解，这种“两段式”的方案——也被称为显式端到端，会因存在某些“模块化”算法的弊病，而被质疑并非真正意义上的“端到端”。目前，一段式“端到端”仍是国内外车企智驾模型迭代的主要发力方向，而在传统端到端以外，VLM、VLA 等慢思考模型也逐渐发展成熟，进入上车前夕。理想 2025 年 3 月发布了自研的 MindVLA，采用其 24 年首创的端到端+VLM 的双系统架构，通过分化日常驾驶情景和复杂未知情景，提供相对明确的纠错路径。其中，系统 1 是快系统，主要负责应对驾驶车辆时 95%的常规场景，只须输入传感器数据，不需要高精地图等先验知识，完全由数据进行驱动；系统 2 是慢系统，由 VLM 视觉语言模型实现，具备逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约 5%。系统 2 的 VLM 通过思维链 CoT 做复杂的逻辑分析，并将决策结果反馈给系统 1，系统 1 和系统 2 相互配合，确保大部分场景下的高效率和少数场景下的高上限。MindVLA 计划在 2025 年 7 月前后和理想 i8 同时首发。

华为 25 年 4 月发布了乾崑 ADS4，ADS4 采用了 WEWA 技术架构——分别是 World Engine 世界引擎和 World Action Model 世界行为模型。世界引擎与行为模型是 ADS4 在云端、车端的技术核心，其中，世界引擎通过 AI 生成 Corner Case 训练模型解决长尾问题，而世界行为是华为的原生模型，不仅避免了使用开源大模型可能招致的时延大、效率低的问题，还能够将传感器的视觉、触觉、听觉感知信息转换为 Token 数据，进而帮助系统生成轨迹控制。

2025 年 7 月，小鹏 G7 发布会上，首发智驾“大脑+小脑”VLA-OL 模型，即将上车小鹏 G7。何小鹏在发布会上表示，在高算力支持下，小鹏 G7 在软件层面首发本地部署的 VLA （视觉语言动作模型）+VLM（视觉语言大模型）模型及“大脑+小脑”VLA-OL（视觉-语言-动作）模型。VLA 能让车辆像人类一样理解、推理和决策，在复杂场景中展现出更加类人的判断；VLM 视觉大模型是帮助车辆理解世界的“AI 大脑”、“VLA 大模型的目标是实现超端到端 10 倍的智驾能力。”

我们认为，传统端到端与 VLM、VLA（现阶段车企的 VLA 实质上是 VLT，也就是视觉、语言、轨迹模型，并未真的能够下沉至执行控制环节）的本质区别就是无模型的强化学习与基于模型的强化学习之间的区别。我们重申，是否应用基于模型的强化学习对于智能驾驶而言也许仅仅是一个“好用”与“可用”之间的区别，而对于一台通用人形机器人而言，是否应用基于模型的强化学习则会直接导致“可用”与“不可用”的区别，因为未经“思考”的动作无法使得机器人具备不同场景下的通用泛化性，而“思考”则是模型内部对未来进行模拟仿真的过程。

2.3 谈及世界模型、物理 AI：世界模型≈空间智能+物理 AI，仿真合成数据提供训练语料

最近一段时间，全球 AI 大模型产业迭代迅速，二级市场在见证大模型的“智能涌现”之外，也同时充斥在从学界到产业界涌现出各类新名词、新概念当中。在本小节中，我们试图以简略、直白的方式（不可避免地会在一定程度上造成信息的失真）讲述各种概念的具体含义和概念之间的关系。

世界模型：2025 年 CES 上，英伟达发布 Cosmos 世界模型平台，上面有一系列开源、开放权重的视频世界模型，参数量从 4B 到 14B 不等。这些模型的作用非常明确，就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据，以解决数据严重不足的问题。我们认为，现阶段英伟达 Cosmos 侧重视觉世界模型，而非真正意义完整的世界模型，世界模型≈空间智能+物理 AI，也就是需要让模型具备理解、生成 3D 几何关系、距离等空间信息的能力，同时需要让模型在 3D 空间中符合真实世界物理规律地与其他物体之间发生交互。

空间智能：斯坦福的李飞飞教授在 2024 年 TED 大会提出“空间智能”（Spatial Intelligence），它强调机器能够像人类一样执行复杂的视觉推理和行动规划，其核心在于使机器在未经预先训练的条件下，直接基于真实三维环境的动态推断（如图像和文字的空间样态）而采取行动，实现从感知到决策的闭环。我们认为，空间智能的核心是让模型理解 3D 空间中不同物体之间的几何比例关系与位置距离信息。由于互联网中并不直接存在海量的 3D 数据，因而现阶段的 LLM 与 VLM 仍然局限于对于文字、图像&视频等信息的生成与理解，而如果希望实现对于 3D 空间数据的 Scale up，目前而言有真实数据采集与仿真合成数据两条路线。 1）真实数据采集路线的典型代表是北美具身智能明星企业 Physical Intelligence（简称 PI），有报道称 PI 租下了 Airbnb 在旧金山的许多公寓用于真实空间和场景的数据采集。 2）而仿真合成数据则是目前更为主流的一条路径，以光轮智能为例，其基于仿真合成数据则是目前更为主流的一条路线，以光轮智能为例，其基于 Sim2Real 与 Real2Sim2Real 技术形成了众多高质量的可交互物理资产（比如可以抽拉的抽屉，可以开关的冰箱等等），并且可以在某一类场景中对于不同颜色、大小、材质的物体进行排列组合，从而形成 10 倍、100 倍乃至更高数量级的数据增广工作。对此我们认为，通过真实数据采集获取的 3D 空间数据虽然质量更高，但数据成本其实是房租+人力，规模效应不强，较难降本且极为耗时。而通过 Real2Sim2Real 方式获得的仿真合成数据的成本则是 GPU 的仿真计算与渲染成本，降本路径服从摩尔定律，且原始数据一般取材于真实物理空间，数据质量并不低，是一条更有性价比且可以极大缩短数据采集时间的路径。

物理 AI：在 AI 大模型从 LLM 到 VLM 再到具备理解 3D 空间中不同物体的几何比例关系与位置距离信息之后，对于具身智能机器人而言，最后一个核心环节是嵌入模型的机器人需要与外部世界的物体发生真实的物理交互。这件事对于扫地机、割草机、智能驾驶汽车而言都不必须，原因是广义的行动导航（或者智能驾驶）天然是反物理交互的，智能汽车唯一与外界的高频物理交互是轮胎与地面的摩擦，除此之外可能发生的物理交互都是智驾模型竭力避免出现的（如追尾、撞人、剐蹭等），而机器人无论是家用服务场景还是工厂内的劳动力替代场景，都需要高频与外部环境进行交互，包括抓取水杯、搬运箱子等。而一旦涉及到物理交互，就会存在力反馈信息，就需要服从合格的物理定律，否则将会产生严重的人身伤害及财产损失。物理 AI 正是在这样的背景之下诞生，要去回应当前机器人产业“缺数据”的难题。

3. 重视 3D 数据资产+物理仿真引擎双主线，看好中国物理 AI 稀缺资产索辰科技

3.1 群核科技：室内场景下的空间智能领军，基于海量室内 3D 设计数据发布 Spatial Verse

群核科技于 2020 年推出空间智能平台 Spatial Verse，这是一个面向室内环境 AI 开发的解决方案，该平台通过构建庞大且物理正确的数据集库，利用高精度 3D 设计数据、渲染引擎与空间编辑工具，生成高度逼真、符合真实世界物理特性（如材质反射与重力模拟）的合成环境，使开发者能训练 AIGC 模型并增强智能机器人、AR/VR 系统的空间认知能力；同时，通过多传感器兼容性与 NVIDIA Isaac Sim 的 Open JSD 框架对接，支持高保真 RTX渲染和工业级虚拟仿真，SpatialVerse 架起了数字世界与物理现实的桥梁，为空间智能算法提供降低测试成本、加速落地的产业级工具。

群核科技 2024 年前三季度营业收入达 5.53 亿元，同比增长 13.8%，主要增长动因是通过扩大客户规模（尤其是高价值大客户）和提升单客户价值实现订阅收入增长。群核科技 2024 年前三季度经调整亏损净额为 0.94 亿元，2022-2023 年经调整净亏损率均 37%以上，2024 前三季度收窄至 17%。

2022-2024Q1-3，群核科技毛利率持续提升，由 72.7%升至 80.4%。业务结构主要分为订阅收入与专业服务收入两部分：订阅收入：包括 1）在特定期间使用群核的软件产品及解决方案的客户所支付的订阅费用；2）按使用量向客户收取的费用。订阅收入的 80%以上来自企业客户。专业服务收入：主要包括模型服务、技术配置服务及客户培训。目前所有专业服务均向企业客户提供。

群核科技 2022-2024Q1-3销售费率持续优化，研发费率持续回落，管理费率在30%上下波动。

3.2 索辰科技：高度稀缺的中国物理 AI 资产，机器人仿真工具发布在即

2025 年 3 月，索辰科技召开天工开物发布会，对外发布索辰开物平台。索辰开物平台基于生成式物理 AI 技术和实景渲染技术，实现真实场景下的四维时空耦合多物理场设计、仿真、优化和训练，并应用于工业装备的研制和部署。开物平台提供一系列的工具集和应用服务，使开发者和工业用户能够轻松开发和部署物理 AI 应用。 7 月 28 日，索辰科技即将在 2025 WAIC 世界人工智能大会发布“机器人虚拟训练平台”。

索辰科技 2024年营业收入达 3.79亿元，同比增长 18.2%，2020-2024年营收 CAGR达 23.7%，主要增长动因仍为 CAE 国产替代背景下的提份额逻辑，向未来展望，1）民用 CAE 行业拓展 +2）物理 AI 机器人训练平台卡位机器人时代卖水人有望持续驱动公司收入高速增长。索辰科技 2024 年归母净利润为 4,145 万元，归母净利率达 10.9%，2020-2022 年归母净利率均在 20%以上，23-24 年有所波动，主因销售费用率（推测为民用行业展业）以及信用减值损失（应收账款账龄结构变化）的提升。

索辰科技近年来综合毛利率约在 70%上下，业务结构主要分为工程仿真软件与仿真产品开发两部分：工程仿真软件：主要包括 1）单一学科仿真软件；2）多学科仿真软件；3）工程仿真优化系统三部分，目前索辰在流体、结构、电磁、光学、测控、声学、复合材料等学科均有细分产品布局。该部分业务产品化程度较高，2020-2024 年毛利率维持在 95%以上。仿真产品开发：主要包括数字孪生系统、仿真-试验融合验证系统、仿真云平台、高性能计算平台等，能够实现物理实体虚拟模型仿真验证，在产品全生命周期持续利用 CAE 技术实现对试验的替代，助力未来智能化制造。该部分业务涉及到定制化开发与部分硬件采购，因而毛利率相对较低，近年来约在 30%上下。

索辰科技 24 年销售费率明显提升，管理控费较好。同时，索辰科技 2020-2024 年研发投入强度较高，研发费率约在 30%上下波动。

2024 年，索辰科技是全 A 上市公司中博士员工占比最高的公司，高达 18.6%。2024 年，索辰科技人均创收 117 万元，2020-2024 年始终维持在 100 万元以上。

23 年以来，公司围绕民用行业拓展、CAE 学科补全、物理 AI 底层数采开展了众多外延布局，并购包括阳普智能、富迪广通、麦思捷、力控元通等标的。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：【未来智库】。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）