下面是具身智能领域知名的论文和产业成果:
1.Google Deepmind 系列:RT1、RT2、RT-X 模型
1)谷歌 RT-1:基于经典 Transformer 结构方案。2022 年,谷歌推出 RT-1,它能从机器人的相机中获取图像历史记录同时将以自然语 言表达的任务描述作为输入,通过预训练的 FiLM EfficientNet 模型将它们编码为 token, 然后通过 TokenLearner 将大量标记映射到数量更少的标记中,实现标记压缩,最后经 Transformer 输出动作标记。其可以成功吸收来模拟环境和其他机器人的异构数据,不仅 不牺牲在原始任务上性能,还提高了对新场景的泛化能力。
2)RT-2:基于预训练 LLM/VLM 方案。2023 年 7 月,谷歌推出全球首个控制机器人的 VLA 模型 RT-2,在视觉-语言模型 (VLM)的基础上提出了视觉语言动作(VLA)模型,并在预训练的基础上进行联合微调 得到实例化的 RT-2-PaLM-E 和 RT-2-PaLI-X。它可以从网络和机器人数据中学习,并将 这些知识转化为机器人控制的通用指令。PaLM-E 和 PaLI-X 是两个已接受网络规模数据 训练的视觉语言模型(VLM),相当于赋予机器人规模足够大的数据库,使其具备识别物体 和了解物体相关信息的能力。 RT-2 具备较强的泛化能力:通过将视觉语言模型与机器人操作能力结合,将网络规 模预训练的 VLM 在语义和视觉上的泛化、语义理解和推理等能力有效转移;此外,RT-2 还具备三个涌现能力:1)推理: RT-2 的核心优势,要求机器人掌握数学、视觉推理和多 语言理解三大技能;2)符号理解:能将大模型预训练的知识,直接延展到机器人此前没见 过的数据上;3)人类识别:能够准确识别人类。
3)RT-X:结合 RT-1 和 RT-2 模型,引入开源大型数据集训练。2023 年 10 月 , 谷 歌 推 出 在 大 规 模 、 多 样 化 的 机 器 人 学 习 数 据 集 Open XEmbodiment 上训练得到的 RT-X 模型。其数据集由全球 21 家机构合作,涵盖了 22 种不同机器人类型的数据,包含了超过 100 万个片段,展示了 500 多项技能和在 150000 项任 务上的表现。RT-X 模型采用了基于 Transformer 的架构和算法,结合了 RT-1 和 RT-2 两 个模型,其泛化、涌现能力得到了大幅提高。

2.OpenVLA:基于预训练 LLM/VLM 方案
24 年 6 月,Stanford、UC Berkeley、TRI、Deepmind 和 MIT 联合发表论文 《OpenVLA: An Open-Source Vision-Language-Action Model》,推出视觉语言动作模型 OpenVLA,并且研究团队全面开源了 OpenVLA 的模型、代码和训练数据。 OpenVLA 基于 Llama 2 语言模型和一个视觉编码器构建:视觉编码器融合了 DINOv2 和 SigLIP 的预训练特征,能够有效地提取图像中的视觉信息;通过将视觉编码器 与语言模型相结合,OpenVLA 可以处理视觉和语言输入,并生成相应的动作输出。模型 在包含 970k 真实世界机器人演示的 Open X-Embodiment 数据集上进行训练。这些数据 涵盖了广泛的任务、场景和机器人实体,为模型提供了丰富的信息,使其能够学习到各种 不同的机器人操作技能和行为模式。从实验结果来看,OpenVLA 在绝对成功率、多任务 环境的成功率和训练效率表现不错。
3.字节跳动 GR-2:视频生成+逆动力学方案
字节跳动 ByteDance Research 团队着手于机器人模仿学习人类成长过程,将多模态 素材的学习与预测直接集成到机器人控制中,以促进泛化并实现高效动作预测和视频生成。 2024 年 10 月,ByteDance Research 发布第二代机器人大模型 GR-2。 GR-2 的训练包括预训练和微调两个过程。1)预训练阶段:GR-2 在 3800 万个互联 网视频片段上进行生成式训练。这些视频来自学术公开数据集,涵盖了人类在不同场景下 (家庭、户外、办公室等)的各种日常活动,使其迅速学会人类日常生活中的各种动态和 行为模式。2)微调阶段:GR-2 通过几项关键改进提升了其在实际任务中的表现。首先, GR-2 引入数据增强技术,通过改变训练数据中的背景和物体,使其在未见环境下更具泛 化能力;其次,模型通过多视角训练,利用不同角度的视觉数据,增强了其在复杂场景中 的操作灵活性和准确性;此外,GR-2 使用了条件变分自编码器(cVAE),生成连续、平 滑的动作序列,确保任务执行时的动作更加高效和精准。在经历大规模预训练后,通过在 机器人轨迹数据上进行微调, GR-2 能够预测动作轨迹并生成视频。 经过多次大模型预训练与微调后,研究团队发现 GR-2 的视频生成与动作预测模型符 合 Scaling Law。随着模型规模的增加,GR-2 的性能呈现出显著的提升,通过 7 亿参数 规模的验证中发现,更大的模型不仅能够处理更多复杂的任务,而且在泛化到未见过的任 务和场景时也表现得更加优异。在多任务学习测试中,GR-2 能够完成 105 项不同的桌面 任务,平均成功率高达 97.7%。
4.GR00T N1:双系统架构,基于扩散模型和 Transformer 架构
2025 年 3 月 19 日 ,英伟达 GTC 发布会推出通用人形机器人基础模型 GROOT N1 (Isaac Groot ),该模型模仿人类大脑的思考模型,采用双系统架构,融合两种计算范式: 系统 2(视觉 - 语言模块):基于 NVIDIA 的 Eagle-2 VLM 模型,由 SmoILM2 语言 模型和 SigLIP-2 图像编码器组成,能将图像和文本编码为统一表示。可以推理周围环境 和指令含义,进行行动规划,类似人类大脑深思熟虑的决策过程。 系统 1-扩散变换器模块:基于 Diffusion Transformer(DiT) ,负责将系统 2 规划的 动作转化为精确、连续的机器人动作 ,如同人类的本能反应,可快速执行任务。
5.Figure AI 的 Helix:双层架构
2025 年 2 月 20 日,FigureAI 发布 VLA 模型 Helix。Helix 的特点为:1)全上身控制, 包括手腕、躯干、头部和各个手指的高速率连续控制;2)多机器人协作;3)抓取任何物 体;4)采用一个神经网络学习所有行为,无需对特定任务的微调。 Helix 采用双层架构: 系统 2(S2):一个机载互联网预训练的 VLM,以 7-9 Hz 运行,用于场景理解和语 言理解,实现跨目标和上下文的泛化。S2 建立在 7B 参数开源、开放权重 VLM 上,该 VLM 在互联网规模数据上进行预训练。S2 将机器人视觉图像和状态信息(包括手腕姿势、 手指位置)投影到视觉语言嵌入空间后进行处理。结合指定所需行为的自然语言命令,S2 将所有语义任务相关信息提炼为单个连续潜向量,并传递给 S1 ; 系统 1(S1):一种快速反应的视觉运动策略,可将 S2 产生的潜语义表征转换为 200 Hz 的 精 确 连 续 机 器 人 动 作 。S1 是 一 个 80M 参 数 交 叉 注 意 编 码 器 -解码器Transformer,用于处理低级控制。来自 S2 的潜向量被投射到 S1 的 token 空间中,并沿 序列维度与来自 S1 视觉主干的视觉特征连接起来,提供任务调节。S1 以 200hz 输出完 整的上半身人形控制,包括所需的手腕姿势、手指屈曲和外展控制以及躯干和头部方向目 标。在动作空间中附加一个合成的“任务完成百分比”动作,使 Helix 能够预测自己的终 止条件,从而更容易对多个学习的行为进行排序。
6.智元启元大模型(Genie Operator-1)
2025 年 3 月 10 日,智元发布通用具身基座大模型——智元启元大模型(Genie Operator-1)。该模型采用 Vision-Language-Latent-Action (ViLLA) 架构,该架构由 VLM(多模态大模型) + MoE(混合专家)组成。其中 VLM 借助海量互联网图文数据获得通用 场景感知和语言理解能力,MoE 中的 Latent Planner(隐式规划器)借助大量跨本体和人类 操作视频数据获得通用的动作理解能力,MoE 中的 Action Expert(动作专家)借助百万真机 数据获得精细的动作执行能力。 在推理时,VLM 采用 InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多 模态信息,进行通用的场景感知和指令理解;Latent Planner 基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP(Chain of Planning,规划链),进行通用的动作理解和规 划;Action Expert 基于 VLM 的中间层输出以及 Latent Action Tokens,生成最终的精细动 作序列。 GO-1 模型的特点包括:1)人类视频学习:可以结合互联网视频和真实人类示范进行 学习,增强模型对人类行为的理解;2)小样本快速泛化:具有较强泛化能力,能够在极 少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成 本非常低;3)一脑多形:有通用性,能够在不同机器人形态之间迁移,快速适配到不同 本体;4)持续进化:大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题 数据中持续进化学习。

VLA 在机器人面临诸多挑战:1)机器人数据稀缺:真实的机器人数据获取难度大、 耗费时间和资源,如果依靠模拟数据会加剧模拟和现实之间的差距;2)基础模型:机器 人基础的 VLA 模型尚未出现成熟方案,评估控制策略的基准也并未统一;3)运动规划模 块:当前的运动规划规划模块缺乏解决各种环境中的复杂性所需的灵活性,影响机器人执 行复杂操作的能力;4)多模态集成:视觉、语言和动作的处理和集成还需要持续优化;5) 多种重要性能有待提升:泛化能力、鲁棒性、长远任务执行等。