2024年人工智能专题报告:人形机器人步入软件定义和AI驱动时代

  • 来源:西部证券
  • 发布时间:2024/04/18
  • 浏览次数:135
  • 举报

一、为什么我们认为人形机器人步入软件定义时代?

由于技术与产业关联性、以及未来成本下降和规模化生产路径相似性,人形机器人经常 与汽车类比。人形机器人和汽车都是高度工程化的产物,需要集成多种技术和部件。特 斯拉等公司在开发人形机器人时,强调了与汽车业务的共享技术路径,比如使用类似的 电池技术、电机技术、AI 算法以及自动驾驶技术。汽车集合了动力系统、传动系统、电 子控制系统等多种复杂组件,人形机器人同样融合了机械设计、运动控制、感知系统 (目前多数汽车也有传感器和雷达)等;而汽车的自动驾驶技术则可以对应于目前人形 机器人自主决策与动作规划。

复盘汽车产业“机械时代→电子时代→软件时代”发展历程,本质是汽车的核心竞争力 在发生变化。在“机械时代”,汽车的核心竞争力主要体现在机械结构和制造工艺上,这 一时期的汽车更多依赖于物理结构和机械性能来满足市场需求。而后汽车产业进入“电 子时代”,电子控制单元(ECU)的应用开始提升车辆的功能性,此时的核心竞争力转向 了电子技术和系统集成能力,这些技术的应用不仅提高了汽车的安全性和舒适性,也使 得汽车能够实现更复杂的控制功能。随后,硬件功能及成本改善升级空间逐步变小,汽 车产业进入“软件时代”,汽车的核心竞争力发生了根本性的变化,软件定义汽车(SDV) 的概念应运而生,汽车从高度机电一体化的机械终端,逐步转变为一个智能化、可拓展、 可持续迭代升级的移动电子终端。

1.1 人形机器人现在处于什么发展阶段?

基于人形机器人所展现出的高度机械化特性以及在视觉感知方面对自动驾驶算法的成功 复用,我们认为人形机器人处于由高动态向高度智能化发展的阶段。高动态是指机器人 在运动能力上表现优秀,特别是平衡性、越障碍能力等。当前人形机器人机械化程度较 高,体现强大的运动性能、仿生结构设计、先进材料应用和精细操作能力等层面;且具 备较强的运动控制及环境感知能力,体现在多传感器融合感知、无线通信、模块化设计 以及能源管理等多个方面。展望未来,人形机器人将在现有基础上,进一步强化自主决 策与深度学习能力,在复杂场景下能够独立思考、适应环境并持续优化自身行为。

运动能力方面,以波士顿动力的人形机器人 Atlas 为例。 Atlas 有多达 28 个自由度,涵盖双足、躯干、手臂等,确保了全方位、精细化的动作模 拟。这种高自由度赋予 Atlas 出色的身体协调性与灵活性,使其能精准模仿人类复杂的行 走步态、跑动、跳跃,甚至完成翻滚、360 度旋转等高难度动作。

感知方面,以 Optimus——特斯拉基于端到端训练的神经网络架构的人形机器人为例。 2023 年 12 月,特斯拉发布其最新一代人形机器人 Optimus Gen2 的最新进展,步行速 度提升 30%,整体重量减轻 10kg,且具有触觉感知灵巧手。与之前的版本相比, Optimus Gen2 的稳态行走能力有了较大提升,步行速度加快 30%;手有 11 个自由度, 手指搭载触觉传感器能够精准抓握鸡蛋等易碎物品;且能够完成多个深蹲动作并保持身 体平衡等。 Optimus 基于完全端到端训练的神经网络架构,底层感知、识别算法等等已经和 FSD 打通复用。马斯克表示,特斯拉目前已经打通了 FSD 与 Optimus 的底层模块,实现了一 定程度的算法复用。FSD(Full Self-Driving,全自动驾驶)算法主要依赖于神经网络和 计算机视觉技术,其核心是神经网络模型:通过对实时传感器获取的数据进行处理和分 析并从中提取有关道路、车辆、行人和障碍物等信息,可以实现车辆的环境感知和物体 识别,而 FSD 算法在人形机器人的感知、决策和控制等方面也同样起到重要作用。 Optimus 的神经网络是完全的端到端训练架构,即可以做到视频信号输入和控制信号输 出,能够直接从原始输入端到输出端进行训练而无需进行手动特征工程或中间阶段处理, 有效缩短研发周期、实现快速的产品迭代。

1.2 人形机器人的核心竞争力在于什么?

“拟人化”不只是身体和行为拟人,更重要的是大脑和思维拟人,人形机器人不是单纯 地执行预先编写程序的机械设备,而是拥有自主决策和学习能力的智能终端。人形机器 人的研究和发展不仅仅只是为了模仿人类的外观形态,更重要的是要赋予它们类似于人 类的认知能力和情感表达能力,使其能够理解和响应人类的需求,在不同的环境和场景中自主地完成任务。

人形机器人的商业化进程中深受应用场景局限性的影响,通用性和智能化或将成为破局 关键。回顾历史,可以发现人形机器人商业化进程非常艰难折:波士顿动力公司多次易 主;曾经引领时代的本田 ASIMO 机器人退役;软银缩减机器人业务,停止 Pepper 生产。 尽管波士顿动力、本田 ASIMO 和软银 Pepper 等人形机器人在技术演示中展现出卓越的 运动能力、互动性能或情感交流特性,但在实际应用中,它们往往难以找到足够广泛且 具有经济效益的落地场景。 所以,我们认为人形机器人的核心竞争力在于其通用性和泛化性,即智能化程度,也就 是在面对各种未知环境、任务和交互情境时的高度适应性和自我学习能力。汽车是一种 代步工具,而人形机器人更多地聚焦于替代或辅助人类执行任务。人形机器人的设计初 衷是通过模仿人类的形态和行为能力,让其能无缝使用人类所有的基础设施和工具,以 便在多种环境中执行任务,提高生产效率,尤其是在替代人类执行一些可能危险、困难 或不适宜的任务。

提高智能程度能够显著拓宽人形机器人应用场景,打破现有局限,提升其对复杂环境的 适应性和任务执行的灵活性。高度智能的人形机器人将具备更强的学习能力,能在与环 境的互动中不断优化行为策略,适应多样化的操作任务和未知情境。同时,自然语言处 理和情境理解的进步将使人形机器人能够更好地与人类进行沟通,理解并响应复杂指令, 甚至预测用户需求。此外,智能化还体现在自主决策与故障诊断能力的提升,使人形机 器人能够在无人干预下独立完成任务,减少对远程操控或现场人工指导的依赖,大大增 强了其在远程作业、危险环境作业等领域的应用潜力。

1.3 为什么我们认为人形机器人步入软件定义时代?

人形机器人正逐步迈进由高动态运动性能向高度智能化跃升的新阶段,这一转变离不开 AI 的发展与深度融入。随着 AI 技术在感知、认知、决策与执行层面的全面赋能,人形机 器人拥有了更强大的环境感知能力,可以通过视觉、听觉、触觉等多种传感器收集信息, 利用深度学习、强化学习等先进算法解析复杂数据,进行实时决策,并通过高精度的动力系统实现细腻、流畅且灵活的动作执行。 更重要的是,人形机器人的核心竞争力在于其依托 AI 实现的通用性和泛化性。借助强大 的 AI 引擎,人形机器人将能在多种任务场景中实现快速学习与适应,无需硬件改造即可 通过软件更新升级功能,这使得它们未来能够广泛应用于制造、教育、医疗、娱乐、养 老、救援等多元领域,展现较强的普适性和延展性。 因此,我们认为人形机器人已经跨入了一个全新的软件定义、AI 驱动的时代。软件不仅 承载着人形机器人的基础操作系统和应用算法,而且通过不断迭代升级,为人形机器人 赋予了超越传统机械设备的智能特性。软件和 AI 不仅开启了人形机器人在各行各业广泛 应用的可能性,更定义了人形机器人的功能边界。

二、大模型成为“AI大脑”,通用人形机器人曙光已现

2.1 人形机器人走向通用,“决策”+“认知”是必经之路

“决策”+“认知”是智能机器人智能化水平的高层次判断标准。我国 2022 年发布的 《智能机器人智能化等级评价规范》从要素智能化等级、综合通用智能化等级和综合场 景智能化等级三个方面对机器人智能化等级进行了权威的分类,并根据智能化程度不同 从低到高划分为 1 级~5 级。其中,综合通用智能化评级主要从感知、执行、决策和认 知四个方面对机器人的智能化综合能力进行评价,从低到高可分为 L1(基础型)、L2 (半交互型)、L3(交互型)、L4(自主型)、L5(自适应型)。根据该标准,决策和认知 能力是判断机器人智能化水平高低的最高层次标准,其中认知能力主要衡量其建模、理 解和推理等方面的能力,执行能力衡量其运动执行和交互等方面的能力。根据当前技术 形态研判,国内外的人形机器人目前已普遍处在 L3 阶段,并随着大模型时代的到来逐 渐向 L4 和 L5 阶段进行发展,而实现人形机器人智能化等级的跃升,提升其决策和认知 能力是必经之路更是核心难点之一。

正如我们前文所说,人形机器人以解放人体、自主完成任务为目标,其长期的核心价值 在于通用性、泛化性。目前工业机器人的技术虽已相对成熟,但其仅适用于汽车制造、 纺织、包装等行业中单一重复性的生产工作。而人形机器人作为智能机器人的具象化, 其在“拟人”之下更为核心的价值在于通用性,更高的通用性则要求其要具备更高的感 知、执行、决策和认知能力,以减少对人工指令的依赖,提升对更复杂的非结构化环境 的理解和适应能力,从而能够在更广泛的应用场景中发挥作用。 大模型+机器人是 AI 重要落地场景,大模型的泛化能力为通用人形机器人的发展带来曙 光。模型泛化能力(Generlisation)是机器学习和人工智能领域评判模型性能的重要指 标之一,其可以理解为一种迁移学习的能力,即把从过去的经验中学习到的表示、知识 和策略应用到新领域的能力。以往的算法模型泛化能力较低,即便经过大量训练也难以 覆盖所有小概率边缘场景,因此通常仅被用在特定的应用场景,难以进行应用场景的拓 展。而大模型凭借其庞大的知识库和强大的理解能力所带来的泛化能力,赋予了人形机 器人更高的通用性,使其能够满足不同场景下的多样化任务需求;同时大模型的辅助编 程等功能还能有效降低软件开发成本,有望加速人形机器人商业化落地。

2.2 具身智能技术持续突破,通用人形机器人新纪元将至

大模型掀起了具身智能新兴领域的研究热潮,具身智能或将成为 AI 领域的下一个“北极 星”问题。自大模型流行至今,谷歌、微软、英伟达等国外科技巨头等纷纷投入到基于 大模型的具身智能的研究赛道中,相关理论和技术得到持续突破。我们梳理了 2023 年至 今国内外“大模型+机器人”的最新研究成果,从初步技术框架再到具体应用落地,基于大模型的机器人技术路线愈发明晰,通用人形机器人新纪元即将到来。

2.2.1 ChatGPT for Robotics:大模型赋能机器人的初步探索

2023 年 2 月,微软发布了一篇名为《ChatGPT for Robotics: Design Principles and Model Abilities》的技术报告,阐述了 ChatGPT 赋能机器人的方法。 ChatGPT 在机器人领域的应用主要体现在自然语言交互和自动化决策。传统上,机器人 任务需要工程师在循环中编写复杂的代码并不断进行迭代改进,但 ChatGPT 使得机器人 能够基于自然语言指令采取响应行动或是完成自动化决策。接入 ChatGPT 后,工程师只 需构建底层库函数及其描述,机器人就能基于底层函数来编写代码完成相关任务,从而 减轻工程师的工作负担。

报告提出了一种提示工程设计原则和创建高级功能库的策略,使得 ChatGPT 能够适应 不同的机器人任务。其具体步骤如下:(1)定义机器人功能库函数,比如实现检测物体、 移动地盘等功能的函数;(2)编写 Prompt,描述任务目标并明确可用的高级函数;(3) 在仿真环境中运行并评估 ChatGPT 的代码输出,以保证模型能够安全且完整地完成任务; (4)将算法部署至机器人上。

2.2.2 PaLM-E:具身多模态视觉语言模型,是具身智能领域的一次重大飞跃

2023 年 3 月,Google Robotics 团队和柏林工业大学共同推出了具身多模态视觉语言 模型 (Visual Language Model, VLM)PaLM-E。PaLM-E 结合了 PaLM 大语言模型和 Vision Transformer(ViT)模型,是当时最大规模的视觉语言模型,总参数量高达 5620 亿,在 PaLM 的基础上引入了多模态和具身化的概念,可实际应用于实体机器人,为大 参数视觉与语言多模态模型如何结合具身智能提供了新思路。 PaLM-E 采用端到端训练,具有很强的泛化和迁移能力。其主要架构思想是将连续的、 可感知的观察数据(如图像、语言、状态预测或其他传感器数据等)注入到预训练的大 语言模型的嵌入空间内,使用编码器提取特征,再通过映射器对齐特征,最终得到一系 列相同纬度的 Token,从而实现推理和训练,整个过程并不需要对场景的表示进行任何 预处理。

PaLM-E 在具有挑战性和多样化的移动操作任务中性能表现优异。在引导真实机器人执 行远距离操作任务的测试中,机器人被要求“从抽屉里拿一包薯片”,PaLM-E 指引机器 人找到抽屉,打开抽屉并成功拿出薯片,即便在人为地干扰下依旧能够成功完成任务, 这体现出了 PaLM-E 具有很强的鲁棒性。在引导真实机器人完成桌面操作任务的测试中, 机器人被要求执行一系列任务,如“将绿色圆形移到黄色六边形上”、“将绿色星星移动 到左上角”等,PaLM-E 均能准确识别颜色和形状并成功完成任务指令。

2.2.3 RT-2:全球首个VLA多模态大模型,能够理解视觉输入,机器人模型里程碑

2023 年 7 月,谷歌 DeepMind 推出 Robotics Transformer 2(RT-2),这是全球首个 控制机器人的视觉-语言-动作(Vision-Language-Action,VLA)模型,该模型能够从 网络和机器人数据中学习知识,并将这些知识转化为机器人控制的通用指令。 RT-2 以 PaLI-X 和 PaLM-E 作为支柱,采用视觉语言模型进行机器人控制。RT-2 以视觉 -语言模型(VLMs)为基础,将一个或多个图像作为输入,并生成一系列通常代表自然语言文本的标记。此类 VLM 已在大规模网络数据上成功训练,用以执行视觉回答、图像 字幕或对象识别等任务。同时,RT-2 的泛化和涌现能力进一步提高,超越了其所接触到 的机器人数据的语义和视觉理解,包括解释新命令并通过执行基本推理来响应用户命令。 与之前的基线相比(如 RT-1、VC-1 等),RT-2 的泛化性提高了约 3 倍以上。RT-2 表明 视觉-语言模型(VLMs)可以转变为更强大的视觉-语言-动作(VLA)模型,通过将 VLM 预训练与机器人数据相结合,能够实现机器人的控制,使其完成推理、解决问题、解释 信息并在真实世界中执行各种任务,展现出了构建通用型物理机器人的广阔前景。

2.2.4 VoxPoser:实现零样本机器人任务轨迹规划

2023 年 7 月,斯坦福大学李飞飞团队提出 VoxPoser 智能系统,该系统将大模型接入至 机器人,能够在无需额外数据和训练的情况下将复杂指令转化为具体的行动规划。 VoxPoser 系统流程主要可以为三个步骤。 1)输入:给定环境信息以及需要执行的自然语言指令; 2)处理:该部分由 LLM 和 VLM 两部分组成,其中 LLM 根据输入的信息内容编写代码, 所生成的代码再与 VLM 进行交互,并生成相应指令的操作指示地图(3D Value Map), 该操作指示地图标记了“在哪里行动”以及“如何行动”; 3)控制:将操作指示地图输入至动作规划器中,以合成机器人最终需要执行的操作轨迹。 传统方法需要进行额外的预训练,而 VoxPoser 系统通过大模型指引机器人与环境进行交 互,有效解决了机器人训练数据稀缺的问题,从而实现零样本的日常操作任务轨迹合成。

2.2.5 RoboAgent:实现通用机器人小数据集的快速训练

2023 年 8 月,卡内基梅隆大学和 Meta 研究人员发布了一款名为 RoboAgent 的人工智 能代理机器人,其仅在 7500 条轨迹数据上就能进行训练并实现了 12 种不同的复杂技能, 包括上茶、物品拾取、烘焙、清洁厨房等日常任务。 RoboAgent 具有超高的智能化程度,可以通过图像和语言等对其进行控制。研究人员提 出了多任务动作分块 Transformer(MT-ACT)架构,通过语义增强和高效的策略表示来 处理多模态、多任务的机器人数据集。RoboSet 数据集中包含了 7500 条轨迹,涵盖了 12 中不同的技能和多个任务场景。基于此,Robot Agent 可以使用有限的域内数据快速 训练机器人并依靠网络免费数据来进行学习,这极大拓宽了机器人在家庭、医院和其他 公共场所等非结构化环境中的使用空间。

2.2.6 RT-X:基于多个数据集的机器人通用大模型

2023 年 10 月 4 日,谷歌 DeepMind 在官网发布了机器人通用大模型 RT-X 并开放了训练数据集 Open X-Embodiment。 RT-X 由基于 Transfomer 的 RT-1-X 和视觉-语言-动作模型 RT-2-X 组成。OpenXEmbodiment 训练数据集是同类中最全面的机器人数据集,其涵盖了 22 中不同类型的机 器人数据,包括了超 100 万个场景的 500 余种技能、15 万项任务。得益于 OpenXEmbodiment 数据集,RT-X 可以在无需任何训练或极少训练的情况下使得机器人适应更 多非结构化的应用场景并完成特定的任务,比如仓库搬运、防爆救险、家庭护理等。构 建一个包含各种机器人示范的数据集是训练通用型模型的关键步骤,因此 Open XEmbodiment 数据集对通用型机器人技术的发展起到了巨大的推动作用。 RT-X 具有更高的涌现能力和泛化能力。基于庞大的数据集,RT-X 相较于原始模型表现 出了更强的性能。RT-2-X 的泛化能力约为原始模型的 3 倍;RT-X 的涌现能力约为 RT-2 模型的 3 倍,且机器人可理解的动作指令从绝对位置(如桌子的左上角)拓展至相对位 置(如可乐和杯子的中间)。

2.2.7 Eureka:基于GPT-4的人工智能代理

2023 年 10 月,英伟达发布 AI 系统 Eureka,该系统以 GPT-4 提供支持,可支持机器人 实现 30 余种复杂动作。 Eureka 系统采用动态可解释教学(DIET)的训练流程,大幅提高了训练效率并缩短了 开发周期。在该过程中,机器人的行动会被记录和分析并用于动作调整,从而能够使机 器人更快、更高效的完成任务。Eureka 的关键创新在于生成奖励程序,其制定的奖励程 序在 80%的任务中都超过了人类专家编写的奖励程序,并使得机器人的平均性能提升了 一半以上,这在机器人培训领域是巨大的进步。

2.2.8 RobotGPT:ChatGPT运用于机器人的框架

2023 年 12 月,三星电子中国研究院与清华大学、北京邮电大学等提出 RobotGPT,探 讨 ChatGPT 在机器人操控中的应用。该系统将环境线索转换为自然语言,使得 ChatGPT 能够为机器人训练并生成动作代码,赋予了机器人使用自然语言进行理性互动 的能力。 在 RobotGPT 框架中,ChatGPT 分别扮演着决策机器人、评估机器人和纠正机器人三 种角色。首先,决策机器人基于提示生成相应的可执行代码并逐行进行执行,若运行出 现错误则提供错误原因以及发生错误的代码行以便进行修改,直到代码能够成功运行; 其次,通过评估机器人所生成的 Eval Code 模型进行可执行代码的测试,若可执行代码 不能通过 Eval Code 测试,纠正机器人将会分析失败原因并将其传回决策机器人予以纠 正;最后,满足评估条件的代码将用于生成演示数据。经过训练,训练有素的智能体可 以完美地部署真实机器人。

2.2.9 EVE:依赖端到端神经网络实现自主工作

2024 年 2 月 9 日,1X Technologies 在 YouTube 上通过视频展示了其人形机器人 EVE 能够自主进行物品搬运、物品收纳等简单的日常工作。 EVE 实现自主工作仅需依赖端到端神经网络。视频中 EVE 的每一个动作均由其先进的视 觉神经网络进行精准操控,通过神经网络接收图像输入并发出精确指令,从而控制驾驶、 手臂、抓手、躯干以及头部的各项动作。1X 的机器人不涉及固定算法,而是更多涉及学 习,从而让 AI 模型对世界有着更丰富的理解。1X 构建了一个包含 30 个 EVE 机器人演 示的高质量、多样化数据集以进行不同人物场景的机器人训练,涵盖清洁整理、物品拾 取、与其他机器人或人类进行交互等多种场景。 自 2022 年与 OpenAI 携手合作以来,1X 不断开发具身学习技术,将人工智能与机器人 技术相结合,并积极制造和训练 EVE 和 NEO 机器人。目前,EVE 已在美国和欧洲部分 地区投入商业化应用;双足人形机器人 NEO 则仍在研发阶段,预计将于 2024 年正式发 布,并在挪威和北美地区进行量产。

2.2.10 Figure 01:能听、能说、能自主决策的人形机器人

2024 年 1 月,Figure 发布视频并宣布:Figure 01 通过学习人类煮咖啡的录像,在 10 小 时内学会制作咖啡的技能,且会自我纠错,比如咖啡胶囊放得不对,它会矫正自己。 2024 年 3 月 14 日,Figure 展示了其全尺寸人形机器人 Figure 01 与 OpenAI 合作的最 新进展。在 OpenAI 的视觉-语言大模型的强大支持之下,Figure 01 在没有任何人类远程 控制的情况下能够进行自主学习和自主决策,理解人类自然语言命令并流畅地完成向人 类递苹果、将黑色塑料袋收拾进筐子里、将杯子和盘子放置在沥水架上等任务。 端到端神经网络+多模态大模型赋能,人形机器人逐步向人类靠近。Figure 的创始人表示, 在本次合作中 OpenAI 负责提供视觉推理和语言理解,而 Figure 的神经网络则提供了快 速、低层次、灵巧的机器人动作。Figure01 的具体技术原理如下:将机器人摄像头捕捉 到的图像以及机载麦克风捕获到的语音等输入到由 OpenAI 训练的多模态大模型中,再 由大模型对这些图像和语音进行处理并通过文本到语音的方式反馈给人类;在此环节中, 大模型负责决定机器人应采取的闭环行为,从而将特定的神经网络权重加载至 GPU 以执 行响应策略并完成给定任务。据 Figure 的工程师介绍,在多模态大模型的加持下 Figure01 目前可以完成描述视觉体验、规划未来行动、反思自身记忆以及阐述推理过程 等任务,且速度愈来愈额逼近人类。

4 月,优必选发布 Walker S 通过百度智能云千帆 AppBuilder 平台接入文心大模型的演 示视频,能根据收集到的空间定位和语义信息,理解任务并规划,再配合其机械臂与灵 巧手的精确操作,端到端地执行任务。WalkerS 在获得人类指令后,自主规划和执行叠 衣服,并递给人类。特斯拉擎天柱此前也完成了一次灵巧叠衣服的任务,不过那仍是人 类远程操作的。未来人形机器人要解决和完成更多任务,依然需要自主规划和实现任务 目标,减少人类的参与或干预。

2.2.11 GR00T——通用人形机器人基础模型

2024 年 3 月 19 日,英伟达在 GTC 2024 大会上发布了 GR00T(Generalist Robot 00 Technology)通用人形机器人基础模型,旨在进一步推动机器人和具身智能的突破。 GR00T 可充当机器人的大脑,使其能够学习技能以解决各种任务。GR00T 能够驱使机 器人理解自然语言、视频和人类演示等多模态指令,从而增强学习技能和处理任务的协 调性和灵活性;使其模仿人类动作以更快融入现实世界并于人类进行互动。GR00T 基于 英伟达深度技术堆栈开发,开发者可以在 Isaac Lab 中进行模拟,在 OSMO 上进行训练, 并部署到 Jetson Thor 上。目前,GR00T 已与 1X Technologies、Agility Robotics、 Apptronik、Boston Dynamics、Figure AI、Fourier Intelligence、Sanctuary AI、Unitree Robotics、XPENG Robotics 等公司展开合作。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至