具身智能在感 知与认知、学习与泛化、计算能力、多任务处理、安全性、隐私保护 以及人机关系等多个方面都面临着挑战。
1.技术挑战
具身智能系统在实现通用智能时面临两大根本性挑战。具身智能的目标是具备通用智能,即能够自主学习如何在各种场景和任务要求 下执行任务。然而,现在的具身智能研究大多是将大模型的智能塞进 机器人中,这仍是学习人类知识和经验的过程,缺乏自主产生意图的 能力,也难以快速适应环境变化。一是系统需要人类智能的介入。目前的学习系统本质上仍是一个开环系统,需要人类根据学习结果,有 针对性地采集更多更好的数据,调整数据的概率分布,反复迭代优化 奖励函数等来实现闭环,Yann Lecun 将目前的机器学习系统描述为 “辅助智能(Assisted Intelligence)”,而实现通用具身智能需要的是“自 主智能(Autonomous Intelligence)” 36。二是尚未实现感知到行动间的 认知映射。感知和行动需要紧密相连,才能快速应对不断变化的环境。 《Thinking,Fast and slow》这本书中提到了人类思维的两种模式,即 系统 1(快思考)和系统 2(慢思考)。系统 1 负责实现快速的反应 式自主控制,而系统 2 负责实现需要慎重思考、推理分析的有意识的 决策。人脑高效运作的原因在于,95%的时间在调度系统 1,只有很 少的任务需要调度系统 2。而目前具身智能的智能增益主要在于系统 2,也是由大模型主导实现的思维推理能力。从感知到行动的认知映 射涉及物理概念理解、感知预测、行为推理等,也需要构建感知输入 与行为输出的关联。目前业界从世界模型、扩散策略、脑神经科学等 角度开展了相关研究,但仍未完全解决这一难题。
数据层面:缺乏数据成为具身智能能力突破的重要壁垒。与大模型所依赖的互联网数据不同,EAI 所依赖的数据涉及动态环境中的复 杂交互,这使得收集数据成为一项昂贵且具有挑战性的工作。EAI 的 数据来源,一方面,通过真实数据收集,例如遥操作、观察学习人类 等技术路线,面临一是获取广泛、高质量和多样化的数据挑战。机器 人在不同环境中的适应和泛化能力取决于其处理数据的多样性。例如, 家庭服务机器人必须适应各种家庭环境和任务,要求它们从广泛的家 庭环境数据中学习,以提高其泛化能力。二是获取大量真实数据成本 过高。例如,为自动驾驶汽车捕获一小时的多模式机器人数据的成本 为 180 美元,是模拟相同数据的成本的 100 倍37。另一方面,则是合 成数据,例如通过提供虚拟仿真环境,机器人可以在各种条件下进行 模拟操作;或通过算法和数学模型创建的,模拟真实数据中的统计模 式和关系。合成数据主要面临“现实差距”——即模拟环境与现实世界 之间的差异挑战,包括物理、光照和意外交互的差异,在需要高度真 实交互的场景中,如精密操作、复杂环境导航等,仿真环境通常无法 满足需求。
软件层面:软件生态与硬件结合成为具身智能能力提升的关键挑 战。具身智能系统的软件不仅要能够高效地处理和解释由硬件传感器 收集的数据,还要能够与硬件平台紧密集成。一是缺乏统一的操作系 统和标准化软件开发工具链,目前市场上存在多种机器人操作系统, 如 ROS 或基于 Linux 自行开发等,由于采用了大量开源组件,常会 出现兼容性或版本升级导致系统不可用的情况,增加了开发难度,带来开发时间和成本的增加。二是算法成熟度不高,尽管 AI 算法有所 进步,但在实际应用中仍面临挑战。例如,在 3D 场景中的情景问答 (SQA3D)任务中,当前最先进的模型也只能达到约 47.20%的准确 率,远低于人类的 90.06%38。三是软硬件解耦难题,硬件在移动空间 需要做到厘米级别,手眼协调的空间做到毫米级别,具身智能模型才 能够实现动作控制算法与产品形态的紧密耦合。 硬件层面:耐用性和能源效率以及与软件的深度集成需求构成了 具身智能硬件发展的主要障碍。具身智能硬件的发展不仅需要技术上 的突破,还需要考虑成本效益、维护升级等多方面因素。一是耐用性 和可靠性挑战。具身智能硬件载体需要在多变的环境中稳定运行,这 对机械部件的耐用性提出了高要求。当前机器人在复杂环境下的故障 率仍然较高,维护成本也相对较大。二是能源效率问题。电池技术的 能量密度和充电速度限制了机器人的持续工作时间。当前,机器人可 能仅能连续工作数小时,之后就需要充电。例如,Figure01 续航时间 5 小时,优必选 Walker X 装续航时间 2 小时。三是硬件需要与软件系 统深度集成,以实现高效的数据处理和精确控制。例如,自动驾驶汽 车需要将传感器收集的数据实时传输给控制系统,这要求硬件具备高 速数据传输能力和与软件的无缝对接。
2.应用挑战
产品层面:产品形态的合理性和内部硬件系统结构,会影响具身智能的行动能力边界。具身智能在真实世界中的落地应用,需要构型 合理、兼容性高、接口丰富、运动能力良好且可靠性高的机器人产品。 一是通用且强大的具身本体挑战。具身智能的产品研发需要兼顾芯片 算力供给和经济性、通信总线的交换效率、运动功耗等各项指标。例 如在需要连续工作的场景,本体的电池续航能力很重要。在实时性和 可靠性要求高的场景,对云端通信的效率和本体侧芯片推理能力有更 高要求。在执行操作任务的场景,需要本体形态有着更高的灵活度和 自适应调节能力。在野外等复杂环境中,可能会遇到滑倒或从高处跌 落的情况,要求本体具备更高的抗击打和抗冲击能力。而实现这些不 仅需要对具体场景的需求有深入理解,也面临将本体的执行可靠性、 任务效率和成本控制做到平衡这一巨大挑战。二是内部软硬系统的紧 密耦合挑战。随着具身智能基础模型的多模态和泛化能力提升,具身 智能的行动能力也获得改善,但大多仍需结合复杂动作控制算法执行 复杂任务。动作控制算法与产品硬件是紧密耦合的关系。产品内部硬 件系统结构,会影响具身智能的行动能力边界。例如,波士顿动力 Spot 四足机器人搭载先进动作控制算法,使其能够在复杂地形中行走,但 它的硬件设计限制了它在需要精细操作或与人交互时的能力,使得 Spot 机器人擅长在户外巡检,但使用工具灵活不足。
商业场景层面:市场需求的明确性和用户接受度会影响具身智能 的商业应用进程。具身智能虽然潜力巨大,但具体应用场景和商业模 式不够清晰,面临:一是场景差异化和开放度挑战,服务、生产、消 费等各种场景都可能成为具身智能的潜在应用领域。然而当前的大规模商用还需要选择容错度较高的环境,且用户买单能力比较强的场景, 市场需求的甄别和预测成为商业落地的首要难题。二是用户接受度和 信任建立的挑战,用户对具身智能技术的接受程度和信任感需要建立 和维护,这对于技术的成功商业化至关重要。例如,在医疗领域,尽 管机器人手术系统如达芬奇手术系统能提供高精度手术操作,但患者 和医生对机器人手术的接受度和信任仍在逐步建立过程中,这限制了 其广泛应用。三是安全与隐私问题,在数据隐私方面,通过机器人的 摄像头、麦克风等传感器设备,收集用户的个人信息和行为数据,如 语音指令、生物特征数据等,带来数据安全隐私问题;在物理安全方 面,机器人具有较高的动力和运动能力,因此可能对周围人员和环境 造成伤害。系统安全方面,入侵者可能通过篡改指令、控制机器人、 窃听敏感信息等方式对机器人进行远程操控,从而对用户造成威胁。

产业链层面:产业链条的完整性和各环节之间的协同效率,影响 具身智能产业的持续发展。如图 5 所示,上游:硬件迭代周期与成本 跟不上软件或算法模型的迭代速度。在具身智能本体技术的关键领域和价值链条中,核心技术壁垒主要围绕三大核心组件展开:减速器、 伺服系统以及控制器,在机器人整体成本结构中占比六到七成。三大 核心组件行业面临精度、稳定性、计算能力等挑战,影响上层软件的 运动控制指令以及对更多精准大规模数据的收集能力。中游:挑战在 于如何开发出高效、可靠的软件系统,以及如何实现软硬件的深度集 成。比如,开发能够适应复杂环境和任务的控制算法是一个技术难点, 同时需要大数据、大模型和大算力的加持,且三个‘大’互相关联,缺 一不可,还需要不断更新,适应新的任务与环境。下游:跨界融合成 为应用新挑战。随着具身智能在家庭服务、教育培训、休闲娱乐、医 疗保健、生物制造、物流运输、制造业、低空经济、航空航天等行业 的广泛应用,个性化定制将成为机器人生成的新模式,跨界融合突破 单一领域的应用将成为新的趋势。需要垂直场景探索与通用泛化兼顾。
3.标准与合规挑战
具身智能产业在发展和培育的过程中,面临促发展与安全监管并 重挑战。在标准化层面,具身智能技术、评测、安全伦理等标准缺失。 因涉及跨人工智能、机械自动化等交叉学科技术,安全和伦理问题突 出,标准化工作面临系列挑战和难度。在技术评测标准方面,虽然已 有国外 softGym、Habitat 3.0、BEHAVIOR-1K 以及国内 AIIA EAI Bench 等工作,但具身智能基准测试标准体系仍建设面临数据规模有限和质 量不高、需要构建任务活动知识库,模拟真实任务活动情况等问题。 在安全标准方面,因机器人能与现实世界直接进行互动,盗窃或误用 可能会产生直接的物理后果,具身智能技术的安全问题包括传统网络全中不存在的漏洞,安全标准也必须不断发展。法律与伦理规范层 面,具身智能机器人的出现,不仅要考虑生命安全风险,还面临信息 安全、个人隐私等一系列伦理和社会学问题。当机器人与人类伦理发 生冲突时,如何规范、合理地开发 AI 技术、使用 AI 产品,以及如何 应对人机交互过程中可能出现的社会问题,成为当今时代下必须重视 的问题。需要有相关的监管标准和规范,明确机器人在各个应用场景 中的边界和限制。同时,人工智能与机器人技术的进步将带来劳动力 变化,扩大技能差距和人才短缺。2023 年 3 月高盛发布报告称,人工 智能可能取代相当于 3 亿个全职工作岗位39,新技术驱动的工作所需 技能与当前劳动力所拥有技能之间的不匹配,需要监管和政策更好地 应对行业构成和就业模式的转变。