2025年汽车电子行业分析:从“能动”到“灵动”,机器人智能化步入新篇章

  • 来源:国泰海通证券
  • 发布时间:2025/05/12
  • 浏览次数:243
  • 举报
相关深度报告REPORTS

汽车电子行业分析:从“能动”到“灵动”,机器人智能化步入新篇章.pdf

汽车电子行业分析:从“能动”到“灵动”,机器人智能化步入新篇章。市场空间超万亿,实现具身智能是商业化落地核心。人形机器人具备与人类相似的感知方式、肢体结构及运动方式,对人类社会适配性高,潜在应用场景可覆盖生产制造、社会服务、危险作业等领域。根据《人形机器人产业发展研究报告(2024)》,2024-2028年中国人形机器人智能水平整体仍处于Lv1,少部分最新产品向Lv2探索,市场规模不足百亿元。伴随智能水平向具身智能进化,人形机器人有望突破特定场景及任务限制,实现各行业领域全面覆盖,2045年以后中国人形机器人市场规模有望突破万亿元。多模态、强化学...

1. 人形机器人高速发展,具身智能是商业化核心

人形机器人核心部分主要包括感知、控制、执行系统。人形机器人是具有人 类外形、模仿人类功能和智能的机器人。其核心部分主要包括感知系统、控 制系统及执行系统。感知系统:主要包括六维力传感器、视觉传感器、触觉 传感器、惯性传感器等,可实现力和力矩测量、环境图像信息获取、目标识 别、位置定位等功能;控制系统:主要包括“大脑”和“小脑”。大脑以大 模型为核心,为人形机器人提供任务级交互、环境感知、任务规划和决策控 制能力。小脑主要负责实现动态平衡、步态规划、关节协调等功能,其底层 硬件主要包括处理器芯片、控制芯片和总线管理芯片;执行系统:主要包括 旋转执行器、线性执行器以及末端执行器,是实现行走、抓取等动作的物理 基础。

人形机器人应用前景广阔,覆盖生产制造、社会服务、危险作业等场景。由 于人形机器人具备与人类相似的感知方式、肢体结构及运动方式,其可更好 地适配人类社会,未来潜在应用场景主要包括生产制造、社会服务及特种作 业。生产制造:有望完成农业采摘、汽车及 3C 领域基础制造生产工作;社 会服务:有望应用至家政、物流配送、安保巡逻等服务场景;特种作业:在 深海、民爆、核电站等危险场景完成生产、巡检、探测、排爆等工作。

人形机器人仍处发展初期,市场规模有望突破万亿,具身智能是未来发展 方向。根据中国信息通信研究院《人形机器人产业发展研究报告(2024)》, 其基于智能水平将人形机器人分为 Lv1-Lv5 五个等级。其预计 2024-2028 年 人形机器人整体仍将处于 Lv1 等级,具备简单动作交互能力,少部分头部 企业最新产品逐步向 Lv2 等级探索,应用场景逐步由 B 端工业制造领域向 C 端服务领域拓展,市场规模约 20~50 亿元;2028-2035 年整体进入 Lv2 等 级,率先在特种作业场景逐步落地,市场规模达到 50~500 亿元;2035-2040 年基本进入 Lv3 等级,在工业场景形成规模,服务场景逐步落地,市场规 模达到 1000-3000 亿元;2040-2045 年进入 Lv4 等级,实现工业场景和服务 场景规模应用,市场规模达到 5000-10000 亿元;2045 年后有望实现具身智 能,全面进入各行业领域,市场规模达 10 万亿元级别。实现具身智能将是 驱动人形机器人商业场景落地以及渗透率增长的核心因素。

2. 多模态、强化学习提升运控性能,通信、算力升级增强实时控制

实现具身智能核心在于提升大小脑性能、增强感知精度并具备实时控制能 力。我们认为目前人形机器人实际使用难点集中在大小脑控制系统以及机 体运动协同:(1)人机交互效率低,泛化性弱。人形机器人难以准确理解人 类自然语言中的语义和意图,导致错误或无法理解任务指令,影响交互效率。并且在复杂任务中,难以根据环境变化和任务要求灵活调整行动规划;(2) 多模态感知正确性偏低。目前多模态大模型尚未成熟,传感器方案仍待完善, 机器人对视觉图像、视频、触觉、听觉等多模态数据的处理能力较弱,在复 杂环境中难以准确识别障碍物,易迷失方向或无法准确到达目标位置;(3) 运动控制稳定性差,精细度不高,复杂动作响应速度慢。目前机器人针对多 接触的全身运动控制仍存在挑战,在执行复杂动作时协调性差,响应速度慢, 难以保持身体平衡并满足工作场景需求。并且动作规划精确度较低,执行过 程中易出现偏差。伴随机器人大小脑性能提高以及机体实时控制能力改善, 未来有望实现具身智能。

2.1. 大脑迈向多模态、高智能,小脑运动算法转向强化学习

大脑:迭代速度较快,思维链赋予高推理性能。自 Transformer 架构发布以 来,大模型快速迭代,以 OpenAI 产品为例,其在 2022 年 11 月发布 ChatGPT3.5,截至目前陆续发布 GPT-4、OpenAI o1、OpenAI o3、GPT-4.5 等大模型,模型性能持续提升。并且其在 OpenAI o1 模型中引入思维链,通 过将复杂问题拆解为多个中间步骤,引导模型生成逻辑链条,提升模型在复 杂任务中的决策能力。通过结合思维链及强化学习,大模型仅需少量提示词 即可完成思维推理过程,增强模型泛用能力。OpenAI o3 在 AIME 2024 数 学竞赛评测中准确率达 96.7%,较 o1 提升 13.4 pct,并且在 Codeforce 中 Elo 得分为 2727,达到 International Grandmaster 水平,相当于位列 175 名的人 类选手。根据《Large Language Models Pass the Turing Test》,GPT-4.5 以 73% 的概率被判定为人类。目前优必选基于 DeepSeek-R1 研发适用于人形机器 人的具身推理大模型,预期在真实场景的数据调优后实现更高效的任务分 解和规划以及复杂环境中的准确反应和决策。

大脑:感知交互向多模态演进。多模态大模型可在不同模态信息之间实现信 息融合,使机器人可综合处理来自不同传感器的数据,是未来主要研究方向。 目前机器人多模态大模型主要包括 LLM(大语言模型)+ VFM(视觉基础 模型)分层大模型、VLM(视觉语言模型)、VLA(视觉-语言-动作)端到 端大模型。NV 推出的通用基础模型 GR00T 整合多模态感知与动作生成, 支持人形机器人适应动态环境。谷歌 RT-2 模型通过视觉-语言-动作多模态 融合,使机器人能根据抽象指令生成动作。伴随大模型适配更多模态信息, 其有望提高环境感知能力,驱动机器人在复杂场景中做出更准确决策。 小脑:运动算法由模型预测控制(MPC)向强化学习和模仿学习演进。模 型预测控制(MPC):核心是基于系统当前状态,利用数学模型预测未来一 段时间内的系统行为,并通过优化算法找到最优控制策略,使系统在未来的 行为尽可能接近目标状态。其可在复杂环境中实现高效安全控制,目前波士 顿动力机器狗以及特斯拉 Optimus 均采用 MPC。但该方法灵活性较差,由于真实环境中存在大量不确定性、非线性及外部干扰,建立准确模型难度大 且模型算法优化复杂;强化学习:通过奖励设计和仿真环境设计实现步态、 奔跑等运动学习,提高鲁棒性。并可以通过采用因果 Transformer 模型,从 观测和行动的历史中对未来行动进行自回归预测来训练;模仿学习:采用非 线性最优化求解的动作映射,以人机关节轨迹相似为目标,以机器人可执行 性、安全性、稳定性判据为约束,规划运动方案。强化学习和模拟学习结合 可提升机器人运动精度及训练效率,并增强其在不同环境和任务中的泛化 能力。

小脑:精细操作底层算法尚未收敛,影响整体执行效率。目前机器人肢体运 动已形成统一的底层算法,issacgym+强化学习,通过设置如“不跌倒、走 得快”作为奖励函数进行强化学习。但对于不同类型的精细操作,由于其对 应不同的奖励函数,难以设置统一的奖励函数进行强化学习,目前尚未形成 统一的底层算法,主流的精细操作底层算法包括生成式模仿学习、可供性 (Affordance)、大模型问答、大模型 prompt 规划及 language 矫正。针对每 个具体的精细动作任务,都需要单独开发和调校相应的算法模型,导致不同 组件或子系统间的兼容性和互操作性较差,影响整体运动效率。

2.2. 数据稀缺束缚模型性能,远程操作+仿真合成或为数据采集 发展方向

数据采集是限制模型性能的核心因素之一,主要包括远程操作、视频学习、 仿真。根据 Coatue Management,机器人场景数据集仅 2.4M,远低于文本数 据集(15T tokens)和图像数据集(6B images),限制模型性能提高。机器 人厂商纷纷通过数据采集扩大训练数据集,逐步提高模型训练性能。目前数 据采集方法主要包括远程操作、视频学习、仿真(合成数据)。远程操作: 实验人员佩戴 VR 眼镜及手套,远程控制机械人操作,实时解析肢体姿态并 采集数据。目前 Tesla、Sanctuary AI 均采用该方式,动作信息全面准确但采 集效率较低;视频学习:基于多模态大模型,使机器人理解学习视频中人类 操作过程,并引导机器人执行相应动作;仿真(合成数据):基于执行任务 生成模拟环境,通过仿真计算实现动作模拟并生成相应数据集。

特斯拉及国内厂商主要采用远程操作收集数据,国内加速训练中心建设。 特斯拉 Optimus Gen 2 训练数据主要通过 Xsens Link 系统和 Xsens Metagloves by Manus 数据手套进行数据采集。数据采集过程中工作人员身 穿 Xsens Link 动作捕捉套装并执行动作任务,其全身运动数据可被实时采 集并用于机器人学习。智元在数据采集基地内搭建多个人类生活空间模拟 场景,涵盖卧室、客厅、卫生间等,上百台机器人每日可产出数万条动作数 据。根据国家地方共建人形机器人创新中心,2024 年在上海浦东建设训练 场满足 100 个人形机器人同时训练,并预计 2027 年满足 1000 个机器人同 时训练。北京、浙江、成都、安徽及广东也在积极建设人形机器人创新中心, 助力训练数据集增长。

远程操作+仿真合成的混合数据或是未来方向。基于远程操作收集的数据准 确性高,但泛化性较差且收集成本高。2025 年英伟达在 GTC 大会中正式推 出人形机器人开源基石大模型 GR00T N1,GR00T N1 基础模型采用双系统 架构,“系统 1”是一个快速思考的动作模型,反映人类的本能反应或直觉。 “系统 2”是慢思考模型,用于进行经过深度思考的决策制定。其可轻松适 应并完成通用任务,如单手或双手抓取、移动物体,或执行需要长语境和通 用技能组合的多步骤任务。开发者和研究人员可以使用真实数据或合成数 据针对特定人形机器人或任务对 GR00T N1 进行后训练。远程操作+仿真合 成可有效提高数据采集效率,降低采集成本,并可通过真实数据验证微调减 少仿真数据偏差。

2.3. 感知传感:纯视觉+六维力矩+电子皮肤或成未来标准化方案

视觉传感:向 3D 视觉演进,中短期采用激光雷达+深度相机,远期或向纯 视觉方案发展。3D 视觉基于立体摄像、激光雷达等技术完成物体三维信息 收集。与 2D 视觉相比,其可(1)检测快速移动目标物,获得形状及对比 度信息;(2)测量表面角度、体积、表面缺陷等信息;(3)不同光照条件适 应力强。目前 3D 感知传感器主要包括激光雷达、单目摄像头、双目摄像头、 毫米波雷达、超声波雷达及 GNSS/IMU/RTK。目前波士顿动力、优必选、 宇树、智元以及小米等机器人厂商主要采用基于立体视觉与 ToF 的深度相 机+激光雷达作为视觉传感方案,基于多传感器融合提高目标检测和识别准 确性。特斯拉 Optimus 基于 FSD 芯片与 Autopilot 神经网络技术采用纯视觉 方案,其搭载 8 个摄像头可实现 360 度环绕影像识别,FSD 系统可在 1.5ms内实现 2500 次图像识别,并且规划执行路径。纯视觉方案无需采用激光雷 达等传感器,可显著降低硬件成本。伴随视觉算法发展以及模型性能提高, 其有望成为未来主流的视觉传感方案。

力学传感:六维力传感器感应精准,市场空间加速成长。与一维及三维传感 器相比,六维力传感器可同时测量 XYZ 轴向力及环向轴力矩,并通过内部 算法解耦各方向力和力矩的干扰。基于六维力传感器可实现关节、手腕、灵 巧手的精准力控感知,向大脑传输全面准确的力学信息。其在人形机器人复 杂力控操作、摆动稳定控制及安全控制等场景中均有使用。目前特斯拉 Optimus、优必选 Walker X、本田 ASIM 等人形机器人均已采用。根据 MIR 睿工业,2024-2030 年中国六维力传感器市场规模将由 2.71 亿元持续增长 143.31 亿元,CAGR 达 93.7%。伴随人形机器人向精密操作领域持续渗透, 六维力传感器需求有望加速增长。

触觉传感:电子皮肤或是触觉感知终极形态。触觉传感器核心功能是模拟 人类皮肤的感知能力,其技术重心围绕灵敏度及多功能。目前主流技术路线 包括压阻式传感器、电容式传感器、压电式传感器及摩擦电式传感器。电子 皮肤具备柔韧、舒适、安全等特点,其可将应变、温度、湿度等信号转换为 可检测的电信号,具有高灵敏度、宽传感范围、高动态响应和高重复性等特 点。采用电子皮肤触觉传感器可使机器人更加灵活、纤细、智能和拟人化, 有望成为未来触觉传感器主要发展方向。根据 Precedence Research 测算,2024-2030 年全球电子皮肤市场规模将由 63 亿美元增长至 164.1 亿美元, CAGR 达 17.3%。

2.4. 实时控制:EtherCAT 加速渗透,端侧算力持续升级

实时控制需要高效的通信协议及强大的硬件算力作为底层支撑。以优必选 Walker 机器人为例,其包括 36 个一体化伺服驱动单元。针对该负责分布式 控制系统,需要保证控制系统与伺服关节的通信足够高效以保证动作流畅 协调和各伺服关节同步运动。并且机器人不同部位运动对应不同的运动算 法,针对复杂运动姿势需同时调用多组算法,并且所有算法也需满足实时性 要求,因此对端侧算力性能提出较高要求。 通信协议:EtherCAT 具备高实时性、低延迟与高同步性,有望成为机器人 主流协议。EtherCAT 协议采用分布式架构设计,每个关节配备独立的 EtherCAT 芯片,各关节的多个传感器与 EtherCAT 芯片连接并通过协议形 成数据整合和反馈,形成类似生物神经元的分布式网络,实现机器人关节、 传感器与控制器间的高效通信,进而确保实时数据传输与动作的精确控制。 通信延迟:其可将机器人关节间通信延迟控制在微秒级别,远高于传统 CAN 协议的毫秒级响应,并且优于 PowerLink 等其他实时工业以太网协议;拓扑 结构:EtherCAT 几乎支持所有的拓扑结构,灵活性高;高精度同步:EtherCAT 采用分布式时钟同步各节点,使各节点通信时差不超过 1 微秒;开源: EtherCAT 协议开源及技术中立性加速构建开放的产业生态。根据 EtherCAT 技术协会,2020-2024 年全球 EtherCAT 节点数量高速增长,由 2710 万提高 至 8830 万,CAGR 达 34.4%,未来有望成为机器人主流通信协议。

端侧芯片:机器人智能提升推高算力需求,成长空间广阔。机器人大脑模型 负责感知、人机交互及指令规划,对算力需求较高,目前主要采用英伟达 Jetson Xavier /Orin 以及 Tesla FSD 芯片;小脑模型参数通常是千万级别,负 责运动控制、电源系统及 OTA 系统管理,算力性能需求较低,目前全志 MR813、地瓜机器人旭日 5、瑞芯微 RK3588、黑芝麻智能 C1200 等在小米、 宇树、傅利叶等机器人中均有应用。伴随机器人大脑向多模态演进以及小脑 运动算法持续丰富,端侧算力需求预计将持续增长,算力芯片成长空间广阔。 根据 Omdia,其预计 2028 年全球机器人人工智能芯片市场规模将达到 8.66 亿美元。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至