具身智能概念、内涵、发展历程及发展态势如何?

具身智能概念、内涵、发展历程及发展态势如何?

最佳答案 匿名用户编辑于2025/04/11 15:05

依靠物理实体通过与环境交互来实现智能 增长的智能系统。

1.具身智能的概念与内涵

具身智能从字面可理解为“具身化的人工智能”,“具身”是前提, 即具有身体且能通过交互、感知、行动等能力来执行任务,具身本体 的形态不必限制在外观上的“人形”,同时身体的形态也不能作为判 断是否属于“具身智能”的依据。根据使用用途和场景的不同,具身 智能可以有多种形态。例如,通用智能机器人,大型的工业设备加上 AI 系统,自动驾驶等多种具象化形态都属于具身智能。“智能”是核心, GPT-4o、Sora 等 AI 技术的最新进展,实现了对文本、视觉、语音等 多模态信息的理解和转换。将这些 AI 技术嵌入到物理实体如机器人 上,可显著提升对环境的感知、交互和任务执行能力。先前的智能机 器人,更侧重于执行特定的任务。而具身智能更强调在环境中交互能力,智能表现在物理实体能以“第一人称”主动进行感知、理解、推 理、规划到移动和操作等任务。

具身智能的发展主要来自于两个领域的交叉融合,一方面机器人 的通用智能需要借助人工智能,另一方面人工智能走向物理世界需要 一个身体,同时涉及到包括机械工程自动化、嵌入系统控制优化、认 知科学、神经科学等多个学科的融合。这也导致了当前对具身智能这 一概念的界定,不同专家的说法略有差异,一类观点强调具身交互对 智能的影响。清华大学教授刘华平等在《基于形态的具身智能研究:历 史回顾与前沿进展》中总结:具身智能在身体与环境相互作用中,通 过信息感知与物理操作过程可以连续、动态地产生智能。上海交通大 学教授卢策吾曾表示通过智能体与环境的交互能够产生智能行为和适应性5。另一类观点关注具身交互对解决实际问题的作用。斯坦福大 学教授李飞飞表示具身的含义在于与环境交互以及在环境中做事的 整体需求和功能。中国科学院院士姚期智认为通用人工智能(AGI) 的未来发展需要具备具身实体,与真实物理世界交互以完成各种任务。 但普遍认可:智能不仅体现在处理信息和解决问题的能力上,还体现 在对其周围环境的感知、理解和操作能力上。

当前,针对具身智能各家观点百花齐放,但都明确了“智能”的核 心地位。因此,本报告从 AI 的角度切入,认为具身智能是指通过机 器人等物理实体与环境交互,能进行环境感知、信息认知、自主决策 和采取行动,并能够从经验反馈中实现智能增长和行动自适应的智能 系统。

对具身智能可以用“三个要素”来对其概念内涵进行理解。如图 1 所示,具身智能同时需要具备“本体+环境+智能”三要素,首先强 调要有具身本体,通常是机器人等物理实体,可以有多种形态,如人 形机器人、四足机器人、无人车、无人机等。本体具备环境感知、运 动和操作执行等能力,是连接数字世界和物理世界的载体,同时本体 的能力边界会限制智能体的能力发挥。其次强调与环境的交互能力, 具身智能不仅能感知环境,还能通过行动来影响环境,并在与环境的 交互中不断学习和适应。以“第一人称”视角去自主感知物理世界, 用拟人化的思维路径去学习,从而做出人类期待的行为反馈。最后强 调一个增量,主要是智能的提升,具身智能利用大模型的知识理解和 表达能力,赋能多种形态的物理实体实现智能增长。在数据驱动的算 法学习下,不断增强感知、决策以及行动能力,并让感知与行动更紧密地连接在一起。强调不仅通过算法和计算实现智能,还通过本体与 物理世界的交互来展现和发展智能。“展现智能”在于依赖具身本体 与环境的交互行为来解决实际问题,例如机器人在通用智能的加持下 将本体的行动价值最大化。“发展智能”可理解为在具身本体与环境 的交互中实现可持续的智能进化。

2具身智能发展历程

具身智能与离身智能相互补充、协作发展共同促进了对智能的理 解、模拟与扩展,从具身智能与离身智能两类研究范式在历史上多次 交锋的角度出发。

具身智能从字面上可以拆分为“具身”+“智能”,天然具备“机器人” 和“人工智能”两种属性,同时链接物理和虚拟两个世界。从人工智能 视角看,自 1956 年 AI 概念诞生以来,智能的发展主要由符号主义与 连接主义主导,两种范式从不同的侧面模拟人类的大脑,在以互联网 信息处理为代表的领域取得了极大的成功。与符号主义强调“表示”和 连接主义强调“计算”的离身智能不同,基于行为主义的“具身智能”更 侧重关注“交互”,即智能受脑、身体与环境协同影响,并由身体与环 境相互作用中,通过信息感知与物理操作过程连续、动态地产生6。从 机器人视角看,早期机器人无需与人协同,关注点主要集中在替代人 力和工业场景自动化上,以工业机器人的应用为典型代表。当前,机器人与人的交互能力和广泛的通用性成为发力点,探索机器人的自适 应性和智能性成为重点,伴随着硬件制造和软件技术等方面的进步, 以及产业链各环节的相互促进,具身智能将赋予机器人更多的智慧, 不断拓宽机器人的智能边界和自主行动能力,使其更好地理解世界、 自然化人机交互和高效执行任务,引领机器人进入通用智能新代际。

结合人工智能的演进历程,具身智能的发展大致可以分为三个阶 段,即:早期萌芽阶段(1950s-1990s)、技术积累阶段(1990s-2022), 以及技术突破阶段(2022 年至今)。 早期萌芽阶段(1950s-1990s),在对智能的激烈争论和分立研究 中,形成 AI 三大学派,尚未形成成熟的智能理论。1956 年达特茅斯 会议之后的一段时期内,符号主义主导了 AI 早期发展,试图用逻辑 规则、符号、知识工程来模拟人类思维。这一阶段的研究集中在逻辑 抽象、逻辑运算和逻辑表达等方面,如逻辑理论家、通用问题求解器、 专家系统等。连接主义则强调通过神经网络模拟人类大脑的学习和计 算能力,但早期的连接主义模型是简单的、浅层的网络,如感知机, 难以处理复杂任务。直到 1986 年反向传播算法让多层网络的训练成 为可能,重新激发了研究者们对神经网络的研究热情。然而以符号主 义和连接主义为代表的计算智能的局限性很快显现出来。1988 年“莫 拉维克悖论”提出人类认为困难的任务对机器来说很容易,而人类容 易做到的事情对机器来说却非常困难。可以通俗地表述为:要让电脑 如成人般地下棋是相对容易的,但要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。1980 年代,罗德尼·布鲁克 斯(Rodney Brooks)发现传统的逻辑程序在机器人导航方面显得非常 缓慢和笨拙,开始直接关注通过感知和动作驱动的环境交互来设计智 能机器。自此,行为主义 AI 开始发展,主张通过身体与环境的交互 来产生智能。

阶段“具身”机器人进行早期实验性尝试,关注“逻辑规则算法 +机器人”实现特定应用功能。1954 年麻省理工学院生产第一台能够 预先编程控制的机械臂,具备了机器人的雏形。1960s 机器人学诞生。 1960 年首台工业机器人 Unimate 投入使用,在美国通用汽车公司 (General Motors)的一条生产线上进行焊接工作。这一时期,开始将 以符号主义为基础的逻辑规则算法与控制论结合,实现移动、对话等 功能。例如 1968 年,斯坦福研究院(SRI)人工智能中心研制了世界 上第一台移动机器人 Shakey。1973 年,日本早稻田大学研发了会对 话的人形机器人 WABOT-1。1970s 工业机器人开始在制造业领域广 泛应用。1980s 计算机硬件和传感器等技术取得突破性进展,服务机 器人进入人们的视野,例如 1985 年,日本公司 Epson 推出了第一款 家庭机器人“AIBO”。1990 年,麻省理工学院制作一款模仿人头部的 机器人 Kismet,具有听觉,视觉和本体感受等能力。

技术积累阶段(1990s-2022),随着智能理论的完善、底层数学 理论的深耕,AI 三大学派从各自突破,逐步走向取长补短的综合性研 究,为具身智能发展奠定理论和算法基础。一方面,行为主义在反思计算智能的局限中获得发展。布鲁克斯在 1980 年代对计算智能的根 本性思考,推动了一系列以“底层智能”(即从简单的感知反应机制 逐渐累积到复杂行为的生成)为基础的研究,试图参考生物的结构设 计和行为方式模仿生物感官和运动能力。1991 年由布鲁克斯发表研 究论文《没有表征的智能》提出智能行为可以直接从自主机器与其环 境的简单物理交互中产生,而这种交互不依赖于预先设定的复杂算法。 另一方面,底层数学理论的深耕研究让 AI 算法逐渐打破桎梏,三大 学派在相互补充中协作发展。深度学习、强化学习、形态计算等理论 及算法模型快速突破。与具身智能紧密相关的算法理论突破主要有三 方面。一是深度强化学习(强化学习+深度学习),2016 年,基于深 度强化学习和蒙特卡罗树搜索的 AlphaGo 击败了人类顶尖职业棋手。 二是模仿学习(强化学习+监督学习),1999 年提出模仿学习,聚焦 让机器人模仿人类行为的研究,通过让机器人直接模仿专家行为,可 以快速、稳定地使其掌握技能,而不依赖于过多探索。三是形态计算, 将物理形态的影响引入对智能体感知、学习、控制的作用分析,探索 基于形态计算的行为生成。2004 年 C Paul 提出形态计算,聚焦双足 运动形态和控制研究。

该阶段“具身”机器人快速发展,关注“行为主义”架构的仿生机 器人研发和“人工智能+机器人”的智能化水平提升。1990 年,麻省 理工学院制作一款模仿人头部的机器人 Kismet,具有听觉,视觉和本 体感受等能力。1991 年由布鲁克斯基于“感知—行动”框架,研发六条腿机器人 Genghis,可以自主行走。1999 年,日本索尼公司推出犬 型机器人爱宝(AIBO)。2002 年,丹麦 iRobot 公司推出第一款家用 扫地机器人 Roomba,获得当时的市场认可。2010 年代,出现了众多 消费级机器人,例如扫地机器人、智能音响等。同期,无人驾驶技术 取得了显著进展,特斯拉、谷歌等企业推出了自动驾驶汽车,此外无 人机在物流、航拍、监测等领域也得到了广泛应用。在医疗、养老、 家政等领域服务机器人逐渐成为标配。此外,在如今机器人行业的发 展中,常常能看到生物学的身影,因为仿生能够帮助机器人更好地适 应自然。例如 Boston Dynamics 的“大狗”、会飞的蜻蜓机器人、软体 章鱼机器人等。

技术突破阶段(2022-至今),具身智能时代有望加速来临。2022 以来,以 ChatGPT 为代表大模型的通用知识和智能涌现能力为机器 人实现智能感知、自主决策乃至拟人化交互方面带来巨大潜力。大模 型让具身智能的新进展井喷式涌现,大幅提高机器人的语言交互、环 境感知和任务决策等关键能力。例如,2023 年提出的 VoxPoser 模型 利用 ChatGPT 理解任务语言描述并进行任务步骤分解。PaLM-E 具身 多模态语言模型,将真实世界的连续传感器模态融入大语言模型 (Large Language Models,LLMs)中,构建了文本和其他感知数据之 间的语义联系,实现更全面的环境感知。2024 年,NaviLLM 为导航 任务中语言描述、视觉观察对象以及运动轨迹等不同阶段的任务需求 设计了统一的指令输入方案,让 LLMs 能够直接生成运动方向、对象位置等行动信息。

探索具备通用智能,能够像人类一样执行任务的具身机器人成为 业界共同目标。“2023 半导体大会”上,英伟达创始人黄仁勋表示 EAI 是能理解、推理、并与物理世界互动的智能系统,是人工智能的下一 个浪潮。2024 年,人形机器人集中爆发,其他形态的本体如协作机械 臂、移动操作机器人、仿生灵巧手、无人驾驶出租车等也显现出智能 升级趋势。2024 年 3 月 OpenAI 与人形机器人初创公司 Figure 合作推 出了 Figure 01 机器人,能听、会说、能与人类对话交流并且可以执 行多样化任务。8 月推出的 Figure 02 凭借 GPT-4o 的大脑升级和本体 的巧妙设计,如配有全方位摄像头、仿生灵巧手等,在感知、移动和 操作能力上取得进一步突破。7 月世界人工智能大会(WAIC2024) 上,有超过 25 款人形机器人亮相,同时在该大会上,加持了 Noematrix Brain 穷彻具身大脑的双臂协作系统展现了叠衣、削黄瓜皮等能力。 百度萝卜快跑无人驾驶出租车进入商业化运营阶段,有数据显示曾单 日单车峰值超过 20 单,与出租车司机的平均日单量相当7。

3.全球具身智能发展态势

1950年,图灵在其经典论文《Computing Machinery and Intelligence》 1中探讨“机器是否能思考” 这一根本问题,认为人工智能的终极形态 是像人一样能与环境交互感知,自主规划、决策、行动和执行的机器 人/仿真人(在虚拟环境中)。而有望实现的两条路径,一是聚焦抽象 计算(比如下棋)所需的智能,二是为机器配备最好的传感器,使其 可以与人类交流,像婴儿一样进行学习。后续,这两条路径逐渐演变 成了离身智能(Disembodied Artificial Intelligence 2)和具身智能 (Embodied Artificial Intelligence,简称“EAI”)。

当前,依靠海量数据,结合算法和计算能力的提升,以 ChatGPT 为代表的离身智能实现智能涌现,成为“数字化”AI 的一场智能革 命。自其推出之后,AI 技术的天花板不断突破。加利福尼亚大学圣迭 戈分校的研究团队在交互式双人图灵测试中发现,人们无法区分 GPT-4 与人类3。在此背景下,人们的关注点转向如何将 AI 应用于物 理世界,并期望通过 AI 的“具身化”找到新的智能增长点。实际上, 大模型对互联网上大量图文信息的处理和学习,本质上是“读万卷书” 的过程,这可以增强智能体的感知、知识理解和思维能力,但无法取 代“行万里路”所带来的体验。就像人类在真实世界中的亲身体验和 劳动,无法仅通过阅读和观看视频来替代。具身智能可以赋予 AI 身体,并具备与物理世界的交互学习能力,这是不能通过看图、看文这 些数字信息所能够弥补、习得的。2023 年,Nature 子刊刊登了由 Yoshua Bengio、Yann LeCun 等科学家联名发表的文章,提出下一代 AI 的终 极挑战是通过具身图灵测试,即复现生物体的感觉运动能力,包括与 世界互动、灵活的行为、高效的能源利用等4。具身智能被誉为迈向通 用人工智能的重要一步,引发了新一轮的技术浪潮。

参考报告

具身智能发展报告(2024).pdf

具身智能是人工智能(AI)与其他学科交叉融合发展的新范式,从字面可理解为“具身+智能”,通过给AI赋予“身体”,能够与物理环境产生交互,让AI从仅存于数字世界的软件算法走向现实世界,并在物理世界也能呈现模拟人类甚至超越人类的智能水平。伴随大模型的技术突破、硬件成本的降低,软硬协同的不断成熟,具身智能开始能够主动探索世界、认识世界、改变世界,不断延伸和拓展AI边界,实现“知行合一”。

查看详情
相关报告
我来回答