具身智能概念、政策、技术背景及落地挑战有哪些?

具身智能概念、政策、技术背景及落地挑战有哪些?

最佳答案 匿名用户编辑于2025/01/20 17:12

EAI 构建新概念,相关政策推动技术发展。

具身智能(Embodied AI)最初是由艾伦-图灵(Alan Turing)于 1950 年提出的 “具 身图灵测试”(Embodied Turing Test),旨在确定智能体是否能够展现出解决虚拟环境 中问题的能力,而且能够驾驭物理世界的复杂性和不可预测性。网络空间中的智能体通 常被称为非实体人工智能,而物理空间中的智能体则是实体人工智能。多模态大模型 (MLMs)的最新进展为具身模型注入了强大的感知、交互和规划能力,从而开发出能 与虚拟和物理环境积极交互的通用具身智能体和机器人。因此,具身智能体被广泛认为 是 MLMs 的最佳载体,目前最有代表性的具身模型是 RT-2 和 RT-H。

要让 AI 像人类一样理解这个物理世界,它必须能够以人类的方式解释和理解场景。 比如,当 AI 被放臵在一个房间里时,它需要能够像人类那样分析和解读周围的环境。另 外,在不同领域之间建立联系,或者试图发现新知识时,传统的预编程和特定领域的专 业系统已经无法满足需求。这些系统受到现有内臵知识的限制,很难实现新的发现、创 新和创造。让 AI 变得更聪明的关键在于利用“想象力”, 其实就是人类和其他动物依 靠世界的现有模式生成的想法,它是一个非常强大的规划工具。为了让 AI 有效地规划, 它需要构建一个关于世界的模型(WMs),并能够利用这个模型进行推理和决策。因此, 具身认知至关重要。系统需要通过具身认知来获取知识,并进一步生成抽象的认知。

相关政策已落地,带动具身智能行业发展。例如上海市的政策重点是推动智能机器 人和智能制造业的发展,目标是通过营商环境的优化和创新基地的建设,到 2025 年实 现行业标杆企业和应用场景的建立。北京市的政策则侧重于机器人产业的创新发展,特别是对高端机器人产品和国际化布局的支持,旨在推动产业生态系统的完善和技术创新。

美国在机器人工业应用和商业化方面的进展更为成熟,中国仍在探索阶段。美国和 中国的机器人技术进展和落地进度存在一些显著差异。美国的机器人企业,如特斯拉和 Figure AI,已在 2024 年中旬进入工厂,负责分拣电池和简单抓取的任务。Agility Robotics 与亚马逊的合作已经在 2023 年展开,推进了物流和自动化领域的实际应用。Sanctuary AI 也计划在 2024 年开始商业运营,重点放在智慧城市和建筑领域的智能服务上。相比 之下,中国的机器人企业虽然在多个领域(如安防、教育和娱乐)都有布局,但整体落 地进度稍慢。例如,优必选的 Walker S 预计在 2024 年初开始量产,主要用于门锁质检 和汽车制造领域。其他企业如小米机器人和波士顿动力的项目仍在研发阶段,逐步优化 视觉和环境交互技术。

EAI 实现通用人工智能(AGI)的关键基础在于具身智能的发展。具身智能体与仅限 虚拟对话的智能体(如 ChatGPT)不同,它们可以通过控制物理实体在现实和模拟 环境中进行交互。该技术涵盖了多个领域,包括计算机视觉、自然语言处理和机器 人技术,特别是在具身感知、具身交互以及从模拟到现实的机器人控制方面展现了 显著优势。具身智能体依托于多模态大模型(MLMs)和世界模型(WMs),像“脑” 一样理解虚拟与物理环境,主动感知多模态元素,并根据人类的意图进行任务分解 与执行。它们不仅能够与人类互动,还能够借助知识库和工具完成复杂任务,展现 出比传统深度强化学习更高的灵活性和通用性。 模拟器在训练具身智能中扮演了重要角色,通过提供逼真的虚拟环境进行算法 开发和模型训练,帮助研究人员在降低成本、提高安全性和加速迭代的同时,将研 究成果更快地转化为现实应用。同时,具身感知让智能体理解物理世界中的视觉推 理和空间,技术包括视觉同步定位与绘图(vSLAM)和 3D 视觉定位,帮助智能体 在动态环境中移动和互动。具身交互则强调智能体在物理或模拟空间中与环境和人 类的互动能力,典型任务如具身问题解答(EQA),需要智能体主动探索环境,整合 信息并执行目标导向的动作。

具身智能全面落地仍需解决四大难题:1. 通用本体平台的挑战。解决硬件的关键零部件技术突破,形成具有优秀运动能力和操作能力的平台级通用 机器人产品;平衡机器人本体的可靠性、成本和通用能力是难题。尤其在被认为是具身 智能终极形态的人形机器人领域,相关研发依然是热点和核心挑战。

2. 智能体系统设计的难点智能体作为具身智能的核心,必须具备复杂环境感知和认知能力。这包括 3D 环境 感知、任务编排与执行、多轮人机交互、long-term 记忆和任务迁移等多项挑战。此外, 具身智能要求实时感知和决策能力,以适应复杂和变化的环境。这要求高速的数据采集、 传输和处理,以及实时的决策反应,尤其是 LLM 所消耗的算力规模巨大,对于资源有限 的机器人处理系统将形成巨大的数据量、AI 计算能力和低延迟的挑战。

3. 高质量数据需求/现实场景的复杂多变,使得现阶段缺乏足够的场景数据来训练一个完全通用的大模 型,进而让智能体自我进化。耦合的本体,需要实际部署到真实环境中,才能够采集数 据,这也是和非具身智能的明显不同。但对于关键业务,要求成功率,则仍然需要高质 量的垂域数据。同时,通过层次化的智能体设计,将不同任务限定到特定领域,则是一 个解决泛化和成功率的有效尝试。

4. 虚拟与真实交互中的学习进化.通过虚拟与真实环境的互动,具身智能体能够持续学习和进化,以应对复杂环境。 尽管形态变化无穷,但要在有限计算资源下快速学习合理的规划和决策能力,是具身智 能进化中的重要课题。

相关报告
我来回答