2026年计算机行业深度研究：具身智能迫近临界点，人形机器人商业化有望揭开序幕

来源：国金证券
发布时间：2026/02/26
浏览次数：137
举报

相关深度报告REPORTS

计算机行业深度研究：具身智能迫近临界点，人形机器人商业化有望揭开序幕.pdf

计算机行业深度研究：具身智能迫近临界点，人形机器人商业化有望揭开序幕。从央视春晚Bot火热看人形机器人四大潜在商业化场景。马年央视春晚“含Bot”量再度提升，松延动力、宇树科技、魔法原子、银河通用&Sharpa为全国人民贡献了四台兼顾科技属性与人文关怀的精彩节目，也展示出人形机器人产业面向商业化落地的最新尝试。以星海图前首席科学家许华哲博士的思考为蓝本，我们认为人形机器人所面向的工作环境必然是“高价值量+低重复性”的场景，上述场景又会在ToB/C客群差异、大脑/小脑层面泛化性要求的区分下形成四类买单方画像清晰且现阶段具身智能足以胜任的商业...

引子：从央视春晚 Bot 火热看人形机器人商业化提速

春晚作为国内前沿科技商业化落地的集中展示窗口，其历年展示的机器人形态变化反映了行业从预编程执行向具身智能迈进的发展轨迹。回顾历年春晚，从 1996 年科幻小品中的服务概念萌芽，到哈工大与优必选展示的小型机器人阵列，再到优必选 Walker 与宇树四足机器人的双足稳定行走与动态起舞，早期阶段仍以预编程序的机械同步与基础动态平衡为主，整体处于运动控制与硬件底座的打磨阶段。2025 年成为关键技术拐点，宇树 H1 完成人机协同、手绢抛接等动作，标志着国产机器人已跨越复杂步态与基础精细力控门槛。2026 年实机展示进一步体现出多场景商业化能力跃迁：宇树 G1/H2 集群与魔法原子产品集中验证了低延迟协同与极限动态抗冲击控制；银河通用 GalbotG1 凭借灵巧手完成盘核桃、叠衣服等柔性物料处理，攻克了复杂物理环境下的高精度力控难点；松延动力 E1/N2 则依托大模型实现了自然语义交互与情绪陪伴。上述能力集中突破，印证了大模型大脑与通用运动小脑的融合已初见成效，标志着人形机器人正式具备了向真实复杂商业场景渗透的物理与智能基础。

人形机器人的商业化价值几乎必然面向“高价值/低重复”任务。我们将机器人面向的商业场景抽象为四大象限。第一象限（高重复、高价值）是典型的专用设备领域，如汽车组装车间的机械臂或医疗领域的达芬奇手术机器人，客户愿意为特定高价值任务买单，但设备泛化性弱；第二象限（高重复、低价值）多由通用型自动化设备主导，如仓储 AGV 或家用扫地机，以标准化方案解决低附加值劳动；我们认为，人形机器人由于初期研发成本较高，其必须面向具有高额支付意愿的“高价值”领域；同时，其通用形态与泛化智能的溢价，只有在面对非标准化、高度复杂的“低重复性”任务时才能得到真正释放。因此，人形机器人真正的星辰大海在于第四象限（低重复、高价值）。此外，第三象限（低重复、低价值）中长尾且琐碎的日常杂务（如捡拾零散纸团），目前并不具备独立的商业化土壤，我们预计这类场景将在第四象限核心技术成熟后，受益于技术外溢被顺带解决。

在“高价值、低重复”的核心市场中，基于机器人能力侧重点（大脑思考泛化/小脑动作泛化）与客群属性（ToB/ToC）的进一步解耦，人形机器人的商业化落地可划分为四大细分场景。

其一，多动脑×ToB 端的营销服务场景，主要聚焦商业环境下的逻辑推理与信息交互。该场景对机器人物理运动能力要求较低，仅需完成平地行走、手势引导等基础动作，却对模型“大脑”的动态认知能力要求颇高。小鹏汽车全新人形机器人 IRON 率先落地自有门店“导览、导购、导巡”核心商业场景，在展厅动态复杂环境中，可实时调用 VLM/VLA 架构的底层物理大模型，除完成引路导览外，还能精准解析客户非标准化需求、自主开展产品答疑，并在多轮对话中挖掘客户痛点、输出定制化营销话术，核心商业价值体现在提升门店获客转化率、优化终端运营效率、实现服务人力成本替代上。

其二，多动脑×ToC 端的个人陪伴场景，核心在于提供情绪价值与非结构化对话。该场景对机器人的物理动作复杂度要求有限，基础的肢体回应与表情反馈即可满足需求，但高度依赖大语言模型的语义共情、意图识别与长程多轮交互能力。以春晚小品中亮相的松延动力机器人为例，其面向老年群体的陪伴功能颇具代表性，不仅能流畅完成日常聊天、兴趣互动等对话任务，还可实时感知情绪变化并给予针对性回应。该场景核心是通过高频次的情感交互建立深度用户粘性，将机器人转化为家庭中的智能陪伴终端，从而挖掘长期的服务价值。

其三，多动手×ToB 端的特种行业场景，对机器人的动态平衡、抗冲击力及全地形机动能力提出高要求。以宇树科技在 2026 年春晚《武 Bot》节目中的表现为例，其技术底座已具备向特种场景落地的清晰可行性：一是具备较强的高动态运动控制能力，机器人在连续后空翻、武术动作中展现的姿态控制、落地缓冲与动态稳定能力，可为复杂地形通行、应急越障、高危环境作业提供运动基础；二是具备人机协同与精细力控能力，可完成精准器械操作、高速动作协同，并与人员安全无碰撞交互，感知与操控精度已满足协同作业、制式装备操作等场景的硬件条件；三是具备集群协同作业能力，20 余台机器人在直播环境下完成高速编队与队形变换，验证了低延迟通信、路径规划与避障算法的成熟度，形成了多机协同作业的技术闭环。更为关键的是，依托全栈自研，宇树将单机成本压降至 10 万元以内，而海外竞品波士顿动力 Spot 的售价约 53 万元且未实现规模化量产，其成本优势为规模化部署提供了商业基础，其早期产品甚至曾获美国海军陆战队的批量采购用以侦察运输。这种兼具高机动性能、集群协同潜力与低成本量产能力的产业化进展，已引发战略层面关注。2026 年 2 月 14 日，美国国防部将宇树科技列入“1260H”清单，实施投资与采购限制。我们认为，此类管制措施从侧面印证了高机动性小脑机器人在特种行业及关键领域的战略价值与应用潜力。

其四，多动手×ToC 端的家庭照护场景，需要应对高度非结构化且随时变动的家庭物理环境。该场景需要机器人具备稳定的底盘移动能力，以适配居家多样的空间布局，同时要求针对各类柔性物料的精细力控与灵巧操作能力，精准把控施力幅度与动作精度。如银河通用机器人搭载 Sharpa 灵巧手，可灵活完成盘核桃、折叠衣物、平稳端水杯等精细化操作，精准适配居家日常的各类操作需求，以此高效替代人类从事兼具精细度与实用性的高价值家政劳动，释放家庭照护中的人力成本。

模型：具身智能泛化的曙光，一段式学习系统取得突破

2.1 端到端：Figure AI 布局全身推理系统，特斯拉 Optimus 与无人驾驶共享一套世界模型

2026 年初，Figure AI 发布 Helix 02，采用了单一的神经系统，新增 S0 系统，能够在整个房间范围内实现“灵巧、长时程的自主行为”：

S2（大脑）负责理解复杂的指令，缓慢地进行目标推理：解读场景、理解语言并规划行为序列。

S1（脊髓）负责敏捷的动作执行，快速思考，以 200 Hz 的频率将感知转化为全身关节的目标指令。

S0（小脑）负责稳健的身体控制，以 1 kHz 的频率执行，负责全身的平衡、接触与协调。

新增的 S0 系统为机器人提供“运动直觉”，它是一个用于机器人全身控制的基础模型，是 Helix 02 物理具身的核心基础。当更高层级负责任务推理与规划时，S0 确保每个动作都能平稳、安全且稳定地执行。S0 并非为行走、转向、蹲下或伸手等动作分别设计奖励函数，而是直接从大量且多样化的运动数据中学习追踪人体动作。Figure 投喂了超过 1,000 小时的关节级重定向人类运动数据，而 S0 则是在不断的仿真模拟中，模仿这些人类的动作。

在 2026 年 Scaled ML 大会上，特斯拉人工智能软件副总裁阿肖克・埃卢斯瓦米发表主题演讲，提及将奥斯汀上线的无人驾驶 robotaxi 服务与即将量产的 Optimus 串联起来。在此背景下，特斯拉研发出世界仿真模型——这一模型基于状态与动作的配对数据训练而成，只需输入当前的摄像头画面和执行动作，就能精准生成摄像头的下一帧画面，构建出高度逼真的虚拟场景。当世界仿真模型达到预期效果后，便可与策略神经网络对接，形成闭环仿真系统：模型生成后续视频帧，策略神经网络依据画面规划下一步动作，动作再反馈至模型进行迭代，最终构建出连贯、多样的仿真环境。值得注意的是，这款世界仿真神经网络并非专为自动驾驶设计，由于采用通用数据训练，它同样可完美适配 Optimus 人形机器人。目前，Optimus 能在这一虚拟环境中流畅完成移动、操作等任务，而画面中的所有像素均由模型生成——借助这一工具，机器人智能体可在精准还原的极端场景及其各类变体场景中反复测试，大幅降低现实测试的成本与风险。马斯克透露，特斯拉正基于这一模型，打造一座 “Optimus 学院”，未来将让数万台机器人在这一实体训练基地中，通过现实场景的“自训练” 掌握各类任务技能。此外，为了打通“仿真到现实的鸿沟”，特斯拉计划在现实场景中部署 1 万至 3 万台 Optimus 机器人，一方面用于验证虚拟训练的效果，另一方面通过采集现实场景中的海量数据，持续优化虚拟训练所使用的“现实生成器”，实现虚拟与现实的双向迭代。同时，马斯克也提到 xAI 研发的 Grok 大模型，或将成为 Optimus 机器人集群的高级调度中枢。

2.2 大脑：预训练跨越 Scaling Law 门槛，激活参数或为 7B

具身智能大脑模型的预训练阶段正加速跨越 Scaling Law 的激活门槛，行业面临的卡点已从科学探索转向工程与数据堆叠。2025 年 11 月，北美初创企业 Generalist AI 发布 GEN-0 模型，首次在业内验证了具身智能模型存在类似大语言模型（LLM）的参数激活现象，且其门槛当量约为 7B，而当前市面现有模型参数普遍停留在 4B 左右。

复盘 LLM 过去 3 年的演进轨迹，每一年都是在特定技术维度上通过资源堆砌的暴力美学实现了 10 倍级以上的跃升。2023 年是预训练的 Scaling Law，以 GPT-4 为代表，行业将模型参数量从千亿级拉升至万亿级规模（第一个 10 倍），成功将海量互联网数据压缩进权重，彻底解锁了模型的通用常识底座；2024 年是后训练的 Scaling Law，以 DeepSeekR1 及 GPT-o 为代表，通过强化学习与思维链技术解锁了深度逻辑推理能力，同一模型在响应复杂任务时的推理 Token 消耗量是单纯回答问题的 10 倍以上（第二个 10 倍）；2025 年则是存储的 Scaling Law，随着 Gemini3 等新一代模型的面世，通过堆高存储硬件与架构优化，将模型的上下文窗口长度从 100k 拉升至 1M+甚至 10M+级别（第三个 10 倍），解锁了模型的长期记忆与海量信息吞吐能力。

我们认为具身智能正处于复刻该指数级跃升的前夕。随着模型跨过 7B 这一幂律定律的激活临界点，后续能力的提升将主要依赖于算力与多维空间数据的暴力美学灌溉。换言之，具身智能大脑的发展路径已相对明朗，其核心矛盾已由复杂的科学算法问题，降维为算力供给与数据获取的工程问题。

2.3 小脑：跨本体通用小脑问世，Behavior 牵动具身智能 ImageNet 时刻

跨本体通用小脑的问世与标杆数据集的开源，标志着机器人运动控制领域逐步迈向范式升级，有望迎来类似计算机视觉领域的“ImageNet 时刻”。传统机器人运动控制高度依赖特定硬件本体的单一模型训练，泛化性极差。而在 2025 年 9 月，北美创企 Skild AI 突破性地发布了通用小脑模型，在相对于传统模型训练量提升 500 倍的算力加持下，该模型成功实现了跨本体的自适应运动控制，即无论机器狗是双足、四足还是存在肢体受损，同一套模型均能实现高效的自平衡与运动泛化。 Skild AI 的实践验证了大规模训练在机器人控制领域的有效性，但要实现从单点突破到行业规模化复制，亟需统一的数据基座与评价体系。2012 年，ImageNet 以千万级高质量标注图片及统一竞赛标准，为深度学习算法迭代提供了客观依据，成为计算机视觉技术爆发的起点；如今， BEHAVIOR 挑战赛正推动具身智能领域重现这一历程。该挑战赛向业界开放了总计超 1,200 小时、包含 10,000 条专家遥操作示范的高质量数据集，并对物体状态、空间关系及自然语言描述进行精细标注。BEHAVIOR 不仅缓解了机器人训练数据匮乏的痛点，更通过构建首个统一基准测试，为通用小脑泛化能力提供了公平度量标准，将有效推动相关算法快速收敛与迭代。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）