【深度报告】具身智能行业深度：技术路线、市场机遇、产业链及相关公司深度梳理

5.22 MB 42 页 56 浏览 0 评论 0 收藏

语言	格式	评分
中文（简体）	.pdf	3
概览
1/42 2025 年 5 月 26 日行业\|深度\|研究报告行业研究报告慧博智能投研具身智能行业深度：技术路线、市场机遇、产业链及相关公司深度梳理随着人工智能技术的飞速发展，具身智能正逐渐成为科技领域的前沿热点。具身智能融合了人工智能、机器人技术、机器学习、感知科学等多学科知识，通过物理载体与环境的交互，实现自主学习与智能决策，展现出巨大的应用潜力和商业价值。从工业自动化到家庭服务，从医疗康复到公共安全，具身智能的应用场景不断拓展，推动着人类社会向更加智能化的方向迈进。本报告深入剖析了具身智能行业的全貌，报告从行业概述出发，详细梳理了具身智能的定义、核心要素、发展历程，进一步分析了推动其快速发展的关键驱动因素。同时，报告深入探讨了具身智能的行业现状、市场规模预测、技术路线选择，以及产业链上下游的构成与发展趋势。此外，报告还聚焦于具身智能领域的相关企业，分析其业务布局、技术优势与市场表现，并探讨了行业面临的挑战与未来技术趋势。为读者提供一份全面、深入的参考。目录一、行业概述 ............................................................................1 二、驱动因素 ............................................................................6 三、行业现状及规模预测 ...................................................................8 四、具身智能技术路线 .................................................................... 11 五、产业链分析.......................................................................... 22 六、市场机遇 ........................................................................... 28 七、相关公司 ........................................................................... 35 八、发展挑战及技术趋势 .................................................................. 39 九、参考研报 ........................................................................... 41 一、行业概述 1、具身智能：人工智能+机器人等物理实体具身智能（Embodied Artificial Intelligence,EAI）是指有物理载体的智能体，在与物理世界的交互过程中，通过感知、控制和自主学习来积累知识和技能，形成智能并影响物理世界的能力。具身智能的实现方式多种多样，可以根据具体任务和环境需求选择合适的智能实体形态，其中人形机器人作为具身智能的典型代表，被视为实现具身智能的最佳载体之一。 2/42 2025 年 5 月 26 日行业\|深度\|研究报告 2、四大核心要素及应用体现具身智能由四个核心要素组成：本体、智能体、数据和学习进化框架。具身智能指的是那些能够感知周围环境、进行智能交流以及规划行动的智能系统。从机器人的角度出发，具身智能在机器人上的应用体现可以划分为三阶段：感知、推理、执行。（1）具身感知机器人需要具备环境感知能力，依据感知对象的不同，可以分为四类：物体感知、场景感知、行为感知、表达感知。具身感知的过程主要包括以下几步： 3/42 2025 年 5 月 26 日行业\|深度\|研究报告（2）具身推理具身感知的过程主要包括以下几步：任务规划、导航、具身问答。任务规划：任务规划（Task Planning）是具身智能的核心任务之一，将抽象的非可执行人类指令转换为具体的可执行技能。这一步骤的完成需要两步：1）将人类指令分解为机器人可执行的技能，2）执行技能。结合大模型的任务规划：大模型作为转换器、大模型作为分解器。作为转换器：LLM+P，用 LLM 将状态信息描述成 PDDL 语言再进行规划，取代以往需要人工针对实际问题书写 PDDL 语言对任务进行建模；作为规划器：可以 zero-shot 进行任务规划。具身导航（Embodied Navigation）：智能体在 3D 环境中移动完成导航目标。早期的具身导航，通过构建一系列基于规则的组件和算法，实现有效的环境感知、定位、路径规划和避障。而基于学习的导航则利用深度学习与强化学习技术，提高模型对复杂环境和新场景的泛化能力。不同于传统算法依赖预定义的规则和手工设计的特征，基于学习的导航算法从大量数据中学习环境特征和导航策略，实现强自适应性和高灵活性。视觉导航：基于学习的导航的一个重要分支，它依靠计算机视觉来理解环境信息并做出导航决策。视觉语言导航：通过自然语言指令和视觉图像进行导航的任务，其目标是开发一种能够与人类进行自然语言交流并在现实 3D 环境中导航的具身智能体。1）大模型出现之前：主要通过 RNN，LSTM，Transformer 等网络来提取命令中的语义信息；2）大模型出现后：利用大模型作为辅助来帮助规划器输出规划或者大模型直接作为规划器来输出规划。 4/42 2025 年 5 月 26 日行业\|深度\|研究报告具身问答：机器人需要主动探索环境，定位目标物体或位置获取环境中的信息，然后基于获取的信息回答问题。该任务可视为导航、VQA 任务的结合。相比于 VQA 等已有问答任务，具身问答的特点在于机器人具有主动行动能力。（3）具身执行具身执行，就是把任务具体执行出来，其中最重要的环节就是技能学习。技能学习：以技能描述、环境观察为输入，输出完成技能所需的 7Dof 轨迹（主要指人手腕或者机械臂末端执行器的位置、朝向、末端状态）。技能学习主要有两类方法：模仿学习：收集专家演示数据，用神经网络拟合。强化学习：设计奖励函数，机器人通过交互学习行为策略。两者的差别在于：模仿学习是从样例中学习，机器人学习过程中不与环境进行交互；而强化学习从交互中学习，机器人学习过程中与环境进行交互。 5/42 2025 年 5 月 26 日行业\|深度\|研究报告技能学习+大模型：通用执行模型结构： 3、具身智能产业发展历程具身智能经历 5 个发展阶段，正步入应用阶段；1950-1980 年，为具身智能概念萌芽阶段，图灵在其论文中提出了人工智能可能的发展方向，为具身智能的概念奠定了基础。1980-1990 年，为早期探索与理论发展，罗德尼·布鲁克斯和罗尔夫·普费弗等人的研究为具身智能提供了重要理论支撑。2000- 2010 年，为跨学科融合与技术突破阶段，具身智能研究开始融合跨学科的方法和技术，如机构学、机器学习、机器人学等，形成了相对完整的学科分支。2011-2020 年，深度学习技术的快速发展为其注入了新的发展动力。2021 年至今，为产业应用阶段。具身智能受到科技界和产业界的广泛关注，众多科技巨头及高等学府纷纷投入相关研究。如今，具身智能作为人工智能的重要分支，正逐步走向产业应用，推动专用机器人向通用机器人发展。 6/42 2025 年 5 月 26 日行业\|深度\|研究报告二、驱动因素具身智能机器人是我国发展新质生产力的未来产业新赛道，集成了 AI、先进制造、新材料等先进技术，将对社会产业变革和全球竞争格局产生颠覆性影响。无处不在的应用潜力预示着庞大的市场需求、国家与地方长期的政策规划支持、核心零部件供应链完善形成集群效应、以及健康良好的人才和创业生态，多方面因素推动我国成为具身智能技术发展的沃土。当前，国内的高校院所、科技大厂、初创企业均在布局以 AI 大模型和人形机器人为代表的前沿领域，我国在具身智能领域已经走在国际前列。 1、政策持续加码，“具身智能”首次出现在政府工作报告中政府工作报告首提具身智能：2025 年 3 月 5 日，十四届人大三次会议开幕，国务院总理李强作政府工作报告。在《2025 年政府工作报告》中提到，建立未来产业投入增长机制，培育生物制造、量子科技、具身智能、6G 等未来产业。同时还提到，大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。具身智能和智能机器人是首次出现在《政府工作报告》当中。 7/42 2025 年 5 月 26 日行业\|深度\|研究报告 2、地方政府出台政策并成立产业创新中心 2023 年 11 月，工信部发布《人形机器人创新发展指导意见》，提出到 2025 年，人形机器人创新体系初步建立；到 2027 年，综合实力达到世界先进水平，成为重要的经济增长新引擎。 2024 年 1 月，《工业和信息化部等七部门关于推动未来产业创新发展的实施意见》中，提出要突破人形机器人等高端装备产品。突破机器人高转矩密度伺服电机、高动态运动规划与控制、仿生感知与认知、智能灵巧手、电子皮肤等核心技术，重点推进智能制造、家庭服务、特殊环境作业等领域产品的研制及应用。多地开始打造人形机器人产业创新中心，推动具身智能基础模型、仿真应用等发展。具身智能是上海“模塑申城”方案五大关键领域之一。2024 年 5 月，国家地方共建人形机器人创新中心落地上海。在不到一年的时间里，已发布了全球首台全尺寸人形机器人公版机“青龙”，建立了 OpenLoong 人形机器人开源社区，联合 15 家企业构建了“十八金刚”人形机器人阵列，围绕人形机器人场景应用、具身智能分级分类等领域，制定了全国首批团体标准，开设了全国首个异构人形机器人训练场。同时，上海正在实施“模塑申城”方案，重点在智能终端、科学智能、在线新经济、自动驾驶、具身智能等五大关键领域，对制造、金融、教育、医疗、文旅、城市治理等六大重点行业开展供需联合攻关，以超级场景牵引应用迭代。 8/42 2025 年 5 月 26 日行业\|深度\|研究报告三、行业现状及规模预测 1、全球具身智能提速发展，科技巨头布局具身智能生态全球主要经济体均高度重视具身智能的发展，不断提升细分领域关注度。具身智能技术不断创新，国内外知名企业积极布局。具身智能在各大企业的推动下正快速发展，技术不断创新，应用场景日益广泛。从软硬件解耦技术到人形机器人的研发与应用，再到与大模型的深度融合，具身智能正逐步成为人工智能领域的重要分支。特斯拉、谷歌、英伟达、Figureone、宇树科技、智元、小米、优必选、华为、科大讯飞等国内外多家知名企业均在具身智能领域积极布局，并已取得显著进展。 9/42 2025 年 5 月 26 日行业\|深度\|研究报告国内数量众多的创业公司们正将最前沿术研究与产品研发相结合，为具身智能市场释放无限想象力。技术发展一脉相承，车企加速部署人形机器人。自动驾驶是具身智能的一个重要场景，都具备“感知- 决策-规划-控制”的算法架构，具身智能和自动驾驶在技术实现路径上是一脉相承的，且算法与零部件可实现高度复用，这是 Tesla 给业界带来的启示。当下，智能辅助驾驶已经跑通商业化路径，进入卷交付、卷规模、卷性价比的阶段，这为具身智能未来的技术打磨路径和商业化提供了一些参考。同时，汽车行业从主机厂到供应商，从投资人到创业者，都在从自动驾驶转向追求更多场景的具身智能：主机厂或自研或投资具身智能公司，而人形机器人企业也在寻求机器人“进场打工”的机会。 2、2024 年迎来具身智能投资热如果说 OpenAI 的 ChatGPT 引爆了 2023 年对大语言模型的投资热潮，那么 Tesla 入局人形机器人和黄仁勋的“AI 的下一个浪潮是具身智能”，则彻底带火了具身智能与人形机器人领域的投资热潮，成为 2024 年科技产业投资的最大热点。 10/42 2025 年 5 月 26 日行业\|深度\|研究报告从投资角度看，头部人形机器人的本体研发集成厂商已经历多轮融资，估值较高，行业整体投资热点正从人形机器人本体向具身智能模型和其他上游零部件迁移。 3、市场规模预测自动驾驶载具和机器人构成两大主要载体，根据 36 氪测算，国内具身智能行业规模 2027 年有望突破 1.25 万亿元，2018-2027 年 CAGR 达 17.6%。 11/42 2025 年 5 月 26 日行业\|深度\|研究报告四、具身智能技术路线具身智能系统通过“大脑”（感知、理解和规划，基于大语言和视觉语言模型）、“小脑”（运动控制和动作生成，基于运动控制算法和反馈控制系统）和“身体”（动作执行，由机器人本体支持）三个层级协同工作。 1、算法：大模型是现阶段“大脑”的最佳解决方案让机器人“大脑”实现突破最核心的推动力是大模型实现涌现、成为真正的生产力。大模型的能力与机器人的需求十分契合，只需要告诉机器人它要做的任务是什么，机器人就会理解需要做的事情，拆分任务动作，生成应用层控制指令，并根据任务过程反馈修正动作，最终完成人类交给的任务，整个过程基本不需要或者仅需少量人类的介入和确认，基本实现了机器人自主化运行，无需掌握机器人专业操作知识的机器人应用工程师介入。 12/42 2025 年 5 月 26 日行业\|深度\|研究报告目前，具身大模型可以分为两大流派。一类是端到端大模型，一类是分层具身大模型。从人体“大脑-小脑-肢体”的架构来看，分层大模型通过不同层次模型协作，利用底层硬件层和中间响应快的小模型弥补上层大语言模型的不足，推动机器人在实际场景的应用，并越来越多地采用基于学习的控制方法。 VLA 等端到端模型能够直接实现从人类指令到机械臂执行，即输入图像及文本指令，输出夹爪末端动作。分层式路线一度是主流选择，因为端到端路线受数据制约难以达到性能要求；机器人数据正在逐步积累，端到端路线在未来可能成为主流。（1）端到端大模型端到端大模型可实现直接端到端地从人类指令到机械臂执行，即输入是图像及文本指令，输出是夹爪末端动作。以谷歌的 RT-1 到 RT-2 的进化迭代为例：谷歌 RT-1——关注泛化能力：2022 年，谷歌机器人研究团队历时 17 个月基于 13 个机器人得到了 130k episodes 以及超过 700 个任务的数据，在该数据集的基础之上，基于模仿学习中行为克隆学习范式，把 Transformer 应用机器人的操纵任务上，提出了 RT-1 模型。RT-1 的输入由图片序列、自然语言指令构成，输出由机械臂运动的目标位姿(Toll,pitchgaw,gripper stαtus)、基座的运动、模式转换指令构成。谷歌 RT-2——获得涌现能力：2023 年，Google 的 DeepMind 团队基于互联网上数据训练视觉-语言模型(VLM)，使其能够学习到更多关于视觉和语言之间映射关系的知识后，在机器人操纵任务上微调，提出了 RT-2。RT-2 的目标是训练一个学习机器人观测到动作的端到端模型，且能够利用大规模预训练视觉语言模型的益处，经测评，这类学习方法产生的 Vision-Language-Action(VLA)模型获得了涌现能力。端到端大模型 2.0 阶段：VLA。以谷歌 RT-2 发布为标志，VLA 模型正式进入人们的视野中并快速发展。 13/42 2025 年 5 月 26 日行业\|深度\|研究报告 VLA 模型是在视觉语言模型（VLM）的基础上发展而来的。在 VLM 基础上，它还利用了机器人或汽车运动轨迹的数据，进一步训练这些现有的 VLM，以输出可用于机器人或汽车控制的动作序列。通过这种方式，VLA 可以解释复杂的指令并在物理世界中执行相应的动作。 VLA 大模型结合了视觉、语言和动作三种能力。端到端大模型的主要优缺点：优点（以 VLA 为例）：1）端到端架构：VLA 是一个端到端的大模型，这意味着它可以简化传统上需要多个独立模块才能完成的任务流程。这不仅可以提高系统的效率，还能增强其灵活性和适应性。2）泛化能力：VLA 具有强大的泛化能力。以谷歌 DeepMind 推出的 RT-2 为例，该模型可以在新的物体、背景和环境中表现出显著改善的性能。它可以理解并响应那些在训练数据集中未曾出现过的命令，并基于底层语言模型提供的思路链进行推理，从而做出合理的决策。3）通用性：VLA 具备高度的通用性。由于它是建立在一个通用的大规模预训练基础上，因此理论上几乎所有的 “智能机器设备”都可以使用这套算法。无论是汽车、飞行器还是其他类型的机器人，只需要经过适当的微调就能满足特定应用场景的需求。 14/42 2025 年 5 月 26 日行业\|深度\|研究报告缺点：1）数据来源非常有限：谷歌在 MountainVillage（美国加州）办公室的厨房里采集了 17 个月，得到 13 万条数据，使得其机器人在谷歌的厨房里表现可以非常好。但一旦出了这个厨房，需要考察其环境泛化性，它的成功率就从 97%骤降到 30%左右。并且这种泛化是有选择的泛化，不是将其直接放到施工工地、非常嘈杂的后厨等场景中。2）推理、响应速度仍有待提升：RT-2 大模型中包含了谷歌上一代大模型 PaLM-E，它的速度只能达到 1～3Hz，对应机器人的反射弧长达 0.3 秒甚至 1 秒。（2）分层端到端大模型分层决策模型通过将感知、规划决策、控制和执行各模块分解为多个层级，分别突破“大脑”和“小脑”，利用不同的神经网络进行训练，最终再整合起来。一个典型案例如 Figure02。Figure02 采用三层级方案：1）顶层集成了 OpenAI 的大模型，负责视觉推理和语言理解；2）中间层是神经网络策略（NNP），负责快速、灵巧的操作，将视觉信息直接转换为动作指令，并输出这些指令；3）底层是全身控制器，负责提供稳定的基础控制，在接收 NNP 的动作指令后，输出各关节的扭矩指令。另一典例如银河通用的三层级大模型方案。1）底层是硬件层，2）中间层是通过仿真合成数据不用任何真实世界数据训练

下载文档到本地，方便使用

共 42 页，还有 6 页可预览，继续阅读

文档评分

it方案

文档

3225

文章

0

积分

10236

个性签名

暂无个性签名