具身智能核心要素及商业化路径分析

具身智能核心要素及商业化路径分析

最佳答案 匿名用户编辑于2024/11/13 16:19

具身智能有望成为智能体最佳载体。

具身智能由本体和智能体组成。具身智能是一种基于物理身体进行感知和行动的智能系统,其通过 智能体与环境的交互获取信息、理解问题、做出决策并实现行动。具身智能的核心要素包括本体和 智能体。本体作为实际的执行者,在物理或虚拟世界负责感知和执行任务,而智能体则是具身于本 体之上的智能核心,负责感知、理解、决策、控制等核心工作。区别于机器人,具身智能具备自我 决策能力。根据卢策吾教授在机器之心 AI 科技年会上发表的《具身智能是通往 AGI 值得探索的方 向》中提到,智能体通过感知器和执行器与环境进行交互后,能够实现获取信息、理解问题等功能, 并根据环境的变化做出相应的决策和行动。

小型端侧设备无法消化大模型大算力,具身智能有望成为智能体最佳载体。2023 年,GPT-4 Turbo 发布,其参数量高达 1.8 万亿。2024 年 4 月,国内商汤科技“日日新”大模型体系正式发布,其中 中文语言大模型参数达 1800 亿。随着大模型参数量的大幅增长,传统穿戴设备、手机等无法消化大 模型大算力。从目前市场上的端侧大模型来看,通常设备端越大(功能越多),其端侧大模型的参 数量也越大。例如,面壁智能联合清华 NLP 实验室发布的开源端侧大模型面壁 MiniCPM 参数规模 为 20 亿;小米手机大模型参数达 13 亿;荣耀端侧平台级 AI 大模型参数规模 70 亿。而具身智能需 要处理更复杂的任务,如环境感知、运动控制、决策制定等,其算法和模型需要快速处理大量数据 并做出决策,因此具身智能需要更大的模型参数来支持其更广泛的功能和更高的智能需求。谷歌开 发的 PaLM-E 具身多模态大模型参数量达 5620 亿;华为盘古 Pangu S 大模型参数达万亿。相比小型 端侧设备,具身智能机器人能够消化大模型、大算力。

小模型时代算法的数量和质量对于机器人至关重要;然而大模型的 Scaling Law 表明通过增加数据 量、扩大模型规模以及延长训练时间,可以实现模型性能的持续提升,数据重要性凸显。并且不同 于语言、图像或视频等二维模型的训练,具身智能底层模型的训练,需要在物理世界绝对坐标系下 的精确测量数据,数据获取难度、成本、标注周期都远超语言模型。从产业发展进程看,类比自动 驾驶,特斯拉大规模采集的数据推动了 FSD 性能的提升,具身智能产业发展的核心在于数据。 大模型的广泛使用再次凸显数据重要性。2022 年以前,算法的数量和质量对于机器人重要性更强。 因为在传统的小模型中,模型性能会随着训练次数的增加而趋于饱和,甚至出现过拟合的情况,导 致性能不升反降。而通过对算法进行优化,能够找到最佳的模型配置。进入大模型时代,Scaling Law 表明通过增加数据量、扩大模型规模以及延长训练时间,可以实现模型性能的持续提升。

类比自动驾驶,数据驱动产业发展。在产业发展初期,自动驾驶系统由规则驱动,即通过工程师人 工编写规则代码使汽车对不同行驶状况作出决策。随着神经网络智驾算法的崛起,自动驾驶进入数 据驱动时代。以特斯拉 FSD 为例,V12 版本 C++代码量仅为 2000 行,相比 V11 代码减少了 99%以 上,其原理是通过大量数据训练出能够高度模拟人类驾驶习惯的人工智能,在达到一定的仿真阈值 后,得出一套根据可靠性和符合人类乘车习惯的系统。特斯拉通过影子模式进行数据收集,将系统 决策与驾驶员行为不断进行比对,当两者不一致时,系统将场景判定为“极端工况”,进而触发数 据回传。因此特斯拉收集的数据越多,对于人类驾驶习惯的模拟就越精准,进而加速特斯拉车端的 部署,形成数据闭环。

商业化路径一:通用机器人技术难度高,行业巨头加速布局。具身智能获取数据的关键在于实现商业化落地。区别于大模型可以从网络中获取数据并进行训练, 具身智能如果想要具备高泛化性和可靠性,则需要在真实物理世界里获取数据来完善模型,而获取 真实物理世界的数据的关键就在于商业化落地。根据 1X AI 副总裁 Eric Jang 在个人博客网站上发 表的“All Roads Lead to Robotics”一文,具身智能的商业化路径主要包括三种:通用场景软硬结合、 软件路径、以及垂直领域软硬结合。

通用路线技术难度高,商业模式是向 B 端或 C 端销售带有智能能力的完整的机器人。通用技术路 径的核心是采用通用的硬件和软件来应对各种多变的使用场景,但是需要开发可重构的硬件,以便 快速调整以适应不同的任务需求;同时还要设计能够适应不同硬件配置和外围设备的通用软件,确 保它们能够在各种硬件上无缝运行。1X、Figure 以及特斯拉均采用该种路径。

以 Figure AI 为例,其目标是设计可以应用于人类环境的通用型机器人,让机器人可以执行各种不同 的任务。2024 年 8 月,Figure 02 发布。在大脑上,Figure 02 集成了 OpenAI 的 GPT-4o 多模态大模 型,相比较于 01 使用 GPT4 将进一步地提升机器人的常识推理能力,使其能够更好地理解和响应复 杂指令,机载计算和 AI 推理能力提升 3 倍。该集成使其在多模态推理和任务执行方面更具智能性和 适应性,提升其在视觉、听觉和语言交互方面的能力,使其能够执行复杂的端到端任务,适用于工 业制造、仓库物流等侧重于轻载搬运和分拣转移的混合任务场景。小脑层面,Figure 02 延续使用类 似 01 产品类似的 RT-X 机器人控制模型,使用模型预测控制器来确定脚步位置和保持平衡并遵循所 需的机器人轨迹所需的力,结合步态控制以完成机器人的基本运动,全身控制策略则确保了机器人 在执行动作时的安全性和平衡性,未来将持续优化提升动作执行能力。

商业化路径二:纯软件路径建议关注英伟达、华为合作厂商。软件路径能够实现机器人的快速部署和迭代,商业模式主要是向硬件厂商或综合型厂商提供 API 接口。纯软件路径的核心是开发 Cross-Embodiment Foundation Model(CEF),以实现跨硬件平台的 无缝兼容,机器人硬件厂商通过提供的 API 接口即可接入机器人的“大脑”。该路径能够克服传统 机器人开发中的局限性,即每个硬件平台需要独立的软件开发流程,开发者在一次编写后,可在多 种硬件平台上部署和运行。无论是精密的人形机器人、高效的轮式机器人,还是灵活的无人机,都 能够共享同一套软件架构。因此节省了高昂的时间和成本投入,并且随着机器人的大规模部署,其 边际成本可以无限趋近于 0。

但该种路径需要实现小脑层的软硬解耦。传统机器人模型通常分为“大脑”和“小脑”两部分,其 中“大脑”负责对任务进行理解,并根据感知的传感器信息对任务进行分解以及规划,生成执行策 略;“小脑”负责核心的运动控制,在大脑的策略下实现机器人动作的执行和反馈。不同于“大脑” 层模型的训练可以脱离特定硬件形态,“小脑”层则通常需要进行算法与硬件端的强耦合训练。要 打造 CEF,需要实现控制层的软硬解耦。除此之外,训练有效的具身智能模型,还需要获取大量高 质量的数据。

向硬件厂商或综合型厂商提供 API,或通过项目制与它们合作。除初创企业外,在 2024 年的 GTC 大会上,NVIDIA 发布人形机器人通用基础模型 Project GR00T,该平台主要包括生成式 AI 基础 模型、仿真工具以及 AI 工作流基础设施,其中 Isaac Manipulator 提供基础模型和 GPU 加速库;Isaac Lab 基于 Isaac Sim 构建,用于运行数千个用于机器人学习的并行仿真;Isaac Perceptor 用于感知, 提供多摄像头和 3D 环绕视觉功能。

九号机器人与英伟达合作开发自主机器人平台。2024 年国际消费电子展(CES 2024)上,九号机器 人推出与英伟达共同开发的自主机器人平台 Nova Cater AMR。Nova Cater AMR 是一款可定制的自 动驾驶研发平台,由英伟达提供算力与软件平台支持,九号机器人提供底层智慧移动能力支持以及 整合量产支撑。Nova Cater AMR 依托九号机器人最具优势的机器人移动平台(RMP),可实现仓库 AMR 建图、仓库运输、科研仿真等。

国内厂商中,华为鸿蒙 HarmonyOS 是面向万物互联的全场景分布式操作系统,支持手机、平板、 智能穿戴、智慧屏等多种终端设备运行,提供应用开发、设备开发的一站式服务的平台。2024 世 界人工智能大会(WAIC 2024)期间,国内首款搭载鸿蒙操作系统的全尺寸人形机器人乐聚 “Kvavo”亮相。该机器人采用华为开源鸿蒙系统,不仅能够实现全方位视觉感知,还具备跳跃 能力,能够多地形行走。

商业化路径三:垂直领域软硬结合建议关注细分龙头。垂直领域软硬结合能够积累细分数据壁垒。高工机器人产业研究所(GGII)所长卢瀚宸在 2024 中 国人形机器人技术应用峰会上表示,具备高壁垒的核心硬件长期来看将是“香饽饽”。机器人领域 硬件与数据强绑定,例如通过定制化的处理器或通信接口,公司能够收集和处理特定类型的数据, 这些数据对于机器人的性能至关重要,但难以被竞争对手复制。同时,硬件和软件紧密集成形成高 度优化的系统,这种集成化设计可以提高数据的收集效率和处理速度,从而形成数据壁垒。

软硬协同,海康机器人具备从机器人本体到业务调度系统的全面产品覆盖。公司在硬件方面具备机 器人设计、无线通讯及自动充换电技术,在软件方面具备嵌入式技术、平台软件技术以及移动机器 人定位导航、运动控制、调度规划等通用智能技术。公司机器人产品矩阵包括:移动机器人本体、 自动充换电系统、通讯系统、机器人调度系统和业务系统。其中移动机器人本体是硬件核心,具备 定位、导航和一定的自主决策能力;通讯系统主要负责机器人群体和机器人调度系统之间的无线通 讯,一般以 WIFI 或 5G 讯号进行链接;充换电系统主要负责给机器人补充电能;机器人调度系统既 是软件的核心也是整个系统的核心,主要负责将工厂的作业任务分配给合适的机器人,并负责整个 机器人群体的交通调度;业务系统负责将工厂的需求指令转换为机器人的搬运指令,并下发给机器 人调度系统。

AMR 市场高速增长,公司市占率领先。根据 GGII 的预测,2022 年我国自主移动机器人市场规模约 为 96.7 亿元。由于叉车替换需求、仓储机器人需求等较为旺盛,预计我国移动机器人市场在 2027 年将超过 460 亿元,10 年 cagr 达 35%。根据 GGII 的统计,2022 年中国移动机器人市场的市场销量 8.14 万台,其中海康机器人市场占有率超过 15%,位居第一,具备较强先发优势。

机器视觉赋能,打造长期壁垒。区别于传统的自动导航车辆(AGV)依赖于预设的路线和人工监督, AMR 需要利用机器视觉技术进行实时的导航和路径规划,以实现自主移动。因此 AMR 对于机器视 觉的要求大大提高。根据 Omdia 报告,海康机器人公司的母公司海康威视连续 8 年蝉联视频监控 行业全球第一,占全球视频监控市场份额的 24.1%。公司在机器视觉方面具备深厚技术积累,拥有 2D 视觉、智能 ID、3D 视觉三大硬件产品线。其中 2D 系列产品中的工业相机作为公司最早布局的 核心成像产品,在市场占有率及产品性能方面均居于业内领先地位。

参考报告

智能体专题报告:智能体时代来临,具身智能有望成为最佳载体.pdf

智能体专题报告:智能体时代来临,具身智能有望成为最佳载体。智能体时代来临,小型端侧设备无法消化大模型大参数,而具身智能则有望成为最佳载体。从具身智能训练层面看,仿真软件可为大模型提供海量、低成本数据,解决真实数据高成本、难收集的问题,仿真软件有望实现大范围应用。相比于刚性物体的仿真,柔性、流体的仿真技术壁垒更高,具备相关技术积累的厂商优势突出。从具身智能商业化路径来看,我们认为目前商业落地途径主要包括三种:(1)通用机器人路径对于资金和技术要求较高,目前特斯拉等行业巨头正加速布局。(2)纯软件路径的核心是设计通用的操作系统使多个硬件厂商共享同一套软件,英伟达ProjectGR00T以及华为鸿蒙...

查看详情
相关报告
我来回答