具身智能数据分类与现状如何?

具身智能数据分类与现状如何?

最佳答案 匿名用户编辑于2025/06/13 08:56

具身智能数据按采集方式主要分为真实数据和仿真数据两大类。

1.国内外具身智能真实数据集现状

丰富的高质量具身智能数据集

当前具身智能机器人数据多为厂商自采集。当前给人形机器人采集的高质量数据通常在现实世界中获取,采集方式主要有直接接触数 据(真机数据)和间接接触数据(人工控制数据)两种。最理想的数据采集方式是通过人形机器人本体直接触达物理世界,让其准确 理解真实环境。但是,大规模真机数据的采集成本高昂,需要投入许多人力、物力和时间资源,数据标注和采集设备都存在门槛。与 此同时,物理世界的运行规律错综复杂,数据的采集往往难以全面反映所有相关的物理现象与知识。 目前市面上存在丰富的高质量具身智能数据集,具备丰富的演示数量、场景任务和动作技能等。

智元:AgiBot World百万级机器人数据集

智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,正式开源Agibot World项目。AgiBot World是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。AgiBot World数据集中涵盖的场景具备多样 化和多元化特点,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等复杂动作,几乎涵盖了人类日常生活所需的绝大多数场 景。

AgiBot World包含来自100个机器人的100多万条演示轨迹。在长程数据规模上已超过谷歌OpenX-Embodiment数据集十倍。相比Google 开源的Open X-Embodiment数据集,AgiBot World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工 业级标准。

技能:AgiBot World数据集涵盖了家居(40%)、餐饮(20%)、工业(20%)、办公室(10%)、超市(10%)等上百种通用场景和 3000多个操作对象。相较于国外广泛使用的Open X-Embodiedment数据集和DROID数据集,AgiBot World数据集在数据时长分布上显著 提升,其中80%的任务均为长程任务,任务时长集中在60s-150s之间,并且包含多个原子技能,长程数据是DROID和OpenX-Embodiment 的10倍以上,3000多种物品基本涵盖了这五大场景。

数据采集:AgiBot World基于全身可控的移动式双臂机器人进行数据采集,配备了视觉触觉传感器、六维力传感器、六自由度灵巧手 等先进设备,可用于模仿学习、多智能体协作等前沿研究。智元Genie-1机器人包括8个环绕式布局的摄像头,实时360度全方位感知; 6自由度灵巧手,末端六维力传感器和高精度触觉传感器;全身拥有32个主动自由度。

国地共建机器人创新中心:RoBoMind数据集

2024年12月27日,国家地方共建具身智能机器人创新中心与北京大学计算机学院联合推出了一个大规模多构型具身智能数据集和 Benchmark——RoboMind,基于成型标准采集,经多个模型训练验证有效,支持多本体多任务并具备通用性,充分解决了目前全球开 源数据集,量大但数据质量参差不齐、通用性复用性差、部分数据实测效果不理想等问题,有效满足复杂场景具身智能高效率和针对 性的训练。

创新中心发布的RoboMind数据集,采用了包括含单臂机器人、双臂机器人、人形机器人,手臂末端使用夹爪或者灵巧手等多种形态的 机器人本体进行数据采集,包含了涉及279项不同的任务多类场景,涵盖了高达61种不同的物体,覆盖了家居、厨房、工厂、办公、 零售等大部分生活服务场景,对科研突破和场景应用均十分友好。创新中心持续采集长程复杂任务,目前已经积累数十万条高质量数 据,以真机数据为主,配以仿真遥操作数据。在数据质量与使用价值上,一条数据等同于目前现有数据集的多条存量数据。创新中心 计划首批开源10万条,后续逐步释放,涵盖更多机器人本体和场景任务。

2.国内外具身智能仿真数据集现状

仿真数据:场景生成引擎的两种技术路径

机器人仿真数据主要依赖虚拟场景,而场景的合成方案可拆解成两个关键部分:场景生成(Gen)与模拟(Sim)。 场景生成引擎(Gen)主要有两种技术路径: 合成视频+3D重建:基于像素流驱动,先生成视频或图像,再重建为点云或mesh等非结构化3D数据,最终转为结构 化语义模型。如Hillbot、群核科技、World labs(李飞飞)等。 AIGC直接合成3D数据:利用图神经网络(GNN)、扩散模型(Diffusion)、注意力机制(Attention)等方法,直接 合成结构化空间数据。如 ATISS、LEGO-Net、DiffuScene、RoomFormer 等代表模型,部分方案结合程序化生成技术, 如 Infinigen(CVPR 2024)。

路线一:视频合成+3D重建

合成视频+3D重建:基于像素流驱动,先生成视频或图像,再重建为点云或mesh等非结构化3D数据,最终转为结构 化语义模型。如Hillbot、群核科技、李飞飞“World Models”项目等。

路线二:端到端的3D直接生成

端到端3D合成数据:利用图神经网络(GNN)、扩散模型(Diffusion)、注意力机制(Attention)等方法,直接合成结构化空间数 据。 端到端3D算法优势:稳定性强、高效低成本、信息完整、控制性强、可拓展性强。

参考报告

具身智能数据行业分析报告:AI时代的石油.pdf

具身智能数据行业分析报告:AI时代的石油。数据是推动具身智能技术快速突破和落地应用的关键。借鉴自动驾驶汽车发展的路径,数据对于具身智能同样至关重要。优质的数据集能够驱动智能体感知与理解环境,能够加速具身智能模型的训练与部署,帮助机器人有效完成复杂任务。不同于大语言模型可以使用互联网海量信息作为训练数据,机器人所用的具身智能模型没有现成数据可以使用,需要投入大量时间和资源进行机器人操作实践或仿真模拟,以收集视觉、触觉、力觉、运动轨迹以及机器人本体状态等多源异构数据。符合通用标准、得到验证的数据集成为具身智能行业的刚需。当前具身智能本体形态多种多样,应用场景千差万别,对于具身智能训练数据的需求也更...

查看详情
相关报告
我来回答