pdf文档 2025具身机器人行业未来展望报告 VIP文档

3.33 MB 31 页 0 下载 28 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
2025 年深度行业分析研究报告 目录 C O N T E N T S 英伟达主导现有大脑方案 01 02 03 大脑能力技术路线 4 04 L4及L5具身智能应用展望 05 从人脑看具身大脑 国内外厂商大模型进展 从人脑看 具身大脑 01 Partone 5 人脑结构拆解 01 6 资料来源:浙商证券产业研究院 了解机器人大脑之前我们不妨先了解一下我们人类的人脑。人脑由大脑、小脑、脑干以及间脑组成。其中大脑是人脑核心,其分为左右两个 大脑半球,二者由神经纤维构成的胼胝体相连。脑干又可分为中脑、脑桥及延髓三部分。 部位 位置 功能 大脑 又称为端脑,位 于脑的最上部, 占人脑总体积的 约85%,分为左 右两个半球 高级认知:负责思维、记忆、语言、决策、情感灯 复杂功能 感觉与运动:处理视觉、听觉、触觉等信息、并控 制自主运动 小脑 位于大脑后下方, 紧贴脑干后方, 形似蝴蝶。 运动协调:调节肌肉张力、协调精细动作(如鞋子、 弹琴) 平衡与姿势:帮助维持圣体平衡与空间定位 学习辅助:参与运动技能学习 脑干 连接大脑与脊髓, 由 中脑、桥脑、 延髓 三部分组成。 生命维持:控制呼吸、心跳、血压灯基本生命活动 信息中转:船体大脑与脊髓之间的感觉和运动型号 反射控制:管理咳嗽、吞咽、瞳孔反射灯原始反应 间脑 位于大脑半球深 部,包裹在左右 大脑半球之间。 丘脑:感觉信息的中转,将视觉、听觉传递至大脑 皮层 下丘脑:调节体温、饥渴、睡眠周期,并控制内分 泌系统 人脑结构与机器人大脑对应关系 01 7 资料来源:浙商证券产业研究院 依照低层次感知到高层次感知逐个来看,人脑的间脑与脑干在机器人中对应的主要是(1)各类传感器及执行器自身部署的嵌入式驱动及算法。 各类传感器及执行器包括旋转执行器、直线执行器、力传感器、温度传感器、姿态传感器等,此类部件一般内部配有MCU,其内部的嵌入式 驱动及算法监控部件的各类状态,保证机器人部件的基本运作能力。(2)传递信息的线束及网关,起到各个控制器,传感器信息交互通联的 作用。 部位 在人体中功能 在人形机器人中功能 机器人对应硬件 大脑 高级认知:负责思维、记忆、语言、决策、情感灯复杂功 能 感觉与运动:处理视觉、听觉、触觉等信息、并控制自主 运动 语义理解、环境信息理解、动 作决策等 目前为机器人中央控制器担任此角色, 但目前并未获得相应能力。后续可能 在此基础上进一步增加硬件及算力 小脑 运动协调:调节肌肉张力、协调精细动作(如穿鞋子、弹 琴等) 平衡与姿势:帮助维持身体平衡与空间定位 学习辅助:参与运动技能学习 动作学习模仿、复杂动作控制 等 机器人中央控制器,即现有的机器人 “大脑” 脑干 生命维持:控制呼吸、心跳、血压灯基本生命活动 信息中转:传递大脑与脊髓之间的感觉和运动信号 反射控制:管理咳嗽、吞咽、瞳孔反射灯原始反应 电源管理、通信网关控制、执 行器控制器状态管理等 机器人各传感器,执行器,线束,网 关 间脑 丘脑:感觉信息的中转,将视觉、听觉传递至大脑皮层 下丘脑:调节体温、饥渴、睡眠周期,并控制内分泌系统 电源管理、通信网关控制、执 行器控制器状态管理等 机器人各传感器,执行器,线束,网 关 人脑结构与机器人大脑对应关系 01 8 资料来源:浙商证券产业研究院 人脑的小脑在机器人中对应的主要是动作学习模仿训练以及复杂动作的控制。而在机器人行业中,目前通常被称为机器人“大脑”,这主要 是因为相对于工业机器人,具有“大脑”的人形机器人对复杂运动的学习掌握能力明显增强,比如近期宇树、众擎、波士顿动力等公司在视 频中展示的人形机器人执行舞蹈,空翻高难度动作。至于对应人脑中的大脑的角色的硬件,目前人形机器人厂商多用中央控制器担任此角色, 但对于高级认知,信息处理能力尚未建立。展望未来,机器人大小脑有望实现分离,大脑算力进一步加强,小脑专注运动控制。 部位 在人体中功能 在人形机器人中功能 机器人对应硬件 大脑 高级认知:负责思维、记忆、语言、决策、情感灯复杂功 能 感觉与运动:处理视觉、听觉、触觉等信息、并控制自主 运动 语义理解、环境信息理解、动 作决策等 目前为机器人中央控制器担任此角色, 但目前并未获得相应能力。后续可能 在此基础上进一步增加硬件及算力 小脑 运动协调:调节肌肉张力、协调精细动作(如穿鞋子、弹 琴等) 平衡与姿势:帮助维持身体平衡与空间定位 学习辅助:参与运动技能学习 动作学习模仿、复杂动作控制 等 机器人中央控制器,即现有的机器人 “大脑” 脑干 生命维持:控制呼吸、心跳、血压灯基本生命活动 信息中转:传递大脑与脊髓之间的感觉和运动信号 反射控制:管理咳嗽、吞咽、瞳孔反射灯原始反应 电源管理、通信网关控制、执 行器控制器状态管理等 机器人各传感器,执行器,线束,网 关 间脑 丘脑:感觉信息的中转,将视觉、听觉传递至大脑皮层 下丘脑:调节体温、饥渴、睡眠周期,并控制内分泌系统 电源管理、通信网关控制、执 行器控制器状态管理等 机器人各传感器,执行器,线束,网 关 英伟达主导现 有大脑方案 02 Partone 9 国内厂家现有高低配方案 02 10 资料来源:宇树科技官网、众擎科技官网、松延动力官网、浙商证券产业研究院 根据宇树、众擎、松延动力等厂商官网说明,可以发现目前主流机器人厂商都会将算力模组分为高低两个版本提供用户,其中低配的基础算 力模组可以完成一些遥控的走路、跑步、跳跃等基础性动作,二次开发部署潜力较弱,起售价均在10万元以内。宇树、众擎使用英特尔 Core i5及N97作为基础算力模组CPU,其中i5为成熟民用CPU而N97为一款低功耗移动处理器,专为轻量级计算和嵌入式场景设计。如果极客开发 者、院校培训、创业者等需要对机器人进行二次开发,则需使用高算力模组的高配版本,整机价格可能会有数倍的价差。目前,绝大部分厂 商的高算力模组主要还是基于英伟达Jetson Orin平台进行开发。 厂商 宇树 宇树 宇树 众擎 松延动力 型号 GO2 G1 H1-2 PM01/02 N2 外形 基础算力模组 8核CPU 8核CPU 英特尔 Core i5 英特尔 N97 未知 高算力模组 英伟达Jetson Orin Nano/NX 英伟达Jetson Orin NX 英特尔 Core i7或英伟 达Jetson Orin NX 英伟达Jetson Orin NX 英伟达Jetson Orin 起售价 (不含高算力模组) 9997元 9.9万元起 未知 8.8万元起 3.99万元起 本报告来源于三个皮匠报告站(www.sgpjbg.com),由用户Id:879635下载,文档Id:653756,下载日期:2025-05-21 英伟达边缘计算平台Jetson 02 11 资料来源:英伟达官网、RoboticsTomorrow、浙商证券产业研究院 英伟达 Jetson系列是专为机器人和嵌入式边缘AI应用设计的计算平台,由Jetson模组、JetPack SDK和生态系统组成,加速软件开发。 Jetson系列的主要成员包括Jetson Nano、Jetson TX2和Jetson AGX Xavier,适用于不同的应用场景。Jetson Nano是最小的设备,配备了 128核心GPU和四核ARM Cortex-A57 CPU。Jetson Xavier系列模组具有高达32 TOPS的AI性能,适用于自主机器的视觉测距、传感器融合、 定位和地图构建等应用。 2024年GTC大会上,英伟达还发布了一款基于 NVIDIA Thor 系统级芯片(SoC)的新型人形 机器人计算机 Jetson Thor。Jetson Thor 是一个全新的计算平台,能够执行复杂的任务并安全、 自然地与人和机器交互,具有针对性能、功耗和尺寸优化的模块化架构。 该 SoC 包括一个带有 transformer engine 的下一代 GPU,其采用 NVIDIA Blackwell 架构, 可提供每秒 800 万亿次8位浮点运算 AI 性能,以运行 GR00T 等多模态生成式 AI 模型。凭借 集成的功能安全处理器、高性能 CPU 集群和 100GB 以太网带宽,大大简化了设计和集成工 作。 Jetson Thor 波士顿动力 Atlas使用Jetson Thor 大脑能力 技术路线 03 Partone 12 本报告来源于三个皮匠报告站(www.sgpjbg.com),由用户Id:349461下载,文档Id:654005,下载日期:2025-05-23 算法方案技术路线 03 13 资料来源:量子位智库、浙商证券产业研究院 具身智能的算法方案分为分层决策模型和端到端模型两种路线。 分层决策模型 端到端模型 以「Figure 01」为代表,将任务分解成不同层级,以多个神经网 络训练,再以流程管线的方式组合。Figure 01顶层接入OpenAI的 多模态大模型,提供视觉推理和语言理解;中间层神经网络策略 作为小脑进行运动控制并生成动作指令;底层机器人本体接受神 经网络策略的动作指令,进行控制执行。分层决策模型的缺点是: 不同步骤间的对齐和一致性需解决。 以「Google RT-2」为代表,通过一个神经网络完成从任务目标输 入到行为指令输出的全过程。首先在大规模互联网数据预训练视 觉语言模型,然后在机器人任务上微调,结合机器人动作数据, 推出视觉语言动作模型。RT-2不仅负责最上层的感知与规划,还 参与中下层的控制与执行,打通了端到端的链路。端到端模型的 缺点是:训练数据海量、消耗资源巨大、机器人执行实时性差。 训练方案技术路线 03 14 资料来源:量子位智库、浙商证券产业研究院 具身智能的训练方法可分为模仿学习和强化学习两种路线。 模仿学习 强化学习 模仿学习—— 智能体通过观察和模仿专家(经验丰富的人类操作者或具 有高级性能的系统)的行为来学习任务。 • 优势:可以快速学习专家策略,无需复杂的探索过程 • 劣势:学习到的行为策略受限于专家数据,对于未见 过的情况泛化能力较差 强化学习—— 智能体通过与环境的交互来学习最佳行为策略,以最大化 某种累积奖励。 • 优势:能够通过探索环境学习未知的策略;可以处理 高度不确定和动态变化的环境 • 劣势:需要大量的探索和试错,学习过程缓慢;对于 复杂任务,设计合适的奖励函数难度较高 数据采集技术路线 03 15 资料来源:量子位智库、浙商证券产业研究院 具身智能的数据采集可分为基于仿真环境数据和基于真是世界数据两种路线。 基于仿真环境的数据采集(Sim2Real) 基于真实世界的数据采集 Sim2Real(Simulation to Reality)—— 在仿真环境中学习技能和策略,并迁移到现实世界中。 • 优势:数据可大规模获取,成本低 • 劣势:对仿真器要求高,仿真环境与真实世界存在差 异;迁移过程中存在性能下降 基于真实世界数据采集——直接从现实世界数据中学习, 包括本体采集、遥操作、动态捕捉、视频学习等方式。 • 优势:数据更真实可靠 • 劣势:数据少、泛化性差;通过机器本体和人采集, 成本高、难度大、效率低 国内外厂商 大模型进展 04 Partone 16 银河通用抓取基础大模型 GraspVLA 04 17 资料来源:银河通用公众号,浙商证券产业研究院 2025年1月,银河通用发布抓取基础大模型GraspVLA。GraspLVA的训练包括预训练及后训练。其中预训练完全基于合成大数据,训练数据 达到了有史以来最大的数据体量——十亿帧「视觉-语言-动作」对,掌握泛化闭环抓取能力、达成基础模型;预训练后,模型可直接 Sim2Real 在未见过的、千变万化的真实场景和物体上零样本测试,全球首次全面展现了七大卓越的泛化能力,满足大多数产品的需求;而针 对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能。 Figure AI 人形机器人VLA通用大模型 04 18 资料来源:银河通用官网,浙商证券产业研究院 2025年2月,Figure AI发布了人形机器人VLA通用大模型。为了解决视觉语言模型“通用、但不快速”,和机器人视觉运动策略“快速、但不 通用”的矛盾,Figure通过建立一套互补的系统进行权衡。两套系统通过端到端训练以进行通信。其中, 系统2是开源、开放权重的70亿参数量端侧互联网预训练视觉语言模型,用于理解场景和自然语言; 系统1是一个8000万参数量的快速反应视觉运动策略,将系统2理解的语义转化为每秒200次的精确连续机器人动作。 智元通用具身基座大模型GO-1 04 19 资料来源:智元机器人官网,浙商证券产业研究院 3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM+ MoE组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规 划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执 行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,持续进化,将具身智能推上了一个新 台阶。 ViLLA通过预测Latent Action Tokens,弥合图像-文本与机器人执行动作之间的鸿沟 智元通用具身基座大模型GO-1 04 20 资料来源:智元机器人官网,浙商证券产业研究院 Latent Planer 隐式规划器 目前全球机器人高质量带动作标签的真机数据量仍然有限, 远少于互联网规模的数据集。智元采用Latent Actions(隐 式动作)来建模当前帧和历史帧之间的隐式变化,然后通 过Latent Planner,预测这些Latent Actions,从而将异构 数据源中真实世界的动作知识转移到通用操作任务中。 采用Diffusion Model作为目标函数来建模低层级动作的连 续分布。 Action Expert结构设计上与Latent Planner类似, 也是与VLM主干网络共享相同的Transformer结构,但使用 两套独立的FFN和Q/K/V/O投影矩阵,它通过Denoising Process(去噪过程)逐步回归动作序列。 Action Expert 动作专家 通过ViLLA创新性架构,在五种不同复杂度任务上测试 GO - 1, 相比已有的最优模型,GO - 1成功率大幅领先,平均成功率提高 了32%(46%->78%)。其中“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“RestockBeverage”(补充饮料) 任务表现尤为突出。 此外智元还单独验证了ViLLA架构中Latent Planner的作用,可以 看到增加Latent Planner可以提升12%的成功率(66%->78%)。 英伟达通用机器人大模型 GR00T N1 04 21 资料来源:英伟达官网、CSDN,浙商证券产业研究院 2025年英伟达GTC大会上,英伟达发布了通用机器人基座大模型GR00T N1。GR00T N1 灵感来自于人类认知处理,是一个具有双系统架构 的视觉-语言-动作 (VLA) 模型。视觉-语言模块(系统 2)通过视觉和语言指令来理解环境。随后的扩散转换器模块(系统 1)实时生成流 畅的运动动作。这两个模块紧密耦合,并进行端到端联合训练。英伟达使用真实机器人轨迹、人类视频和合成生成的数据集的异构混合物来 训练 GR00T N1,解决了具身智能所面临的数据稀缺和多样性不足的问题,从而提升机器人在复杂环境中的操作能力。英伟达表示,GR00T N1 在多个机器人实施例的标准模拟基准上优于最先进的模仿学习基线。 System1是一个扩散转换器(DiT)作为动作模块。它交叉关注 VLM 输出的Token,并采 用特定于实施例的编码器和解码器来处理可变状态和动作维度以产生运动。它以更高的 频率 (120Hz) 产生闭环电机动作。 System 2是一个预先训练的视觉语言模型 (VLM),它处理机器人的视觉感知和语言指 令,以解释环境并实现任务目标,它可以在英伟达 L40 GPU 上以 10Hz 运行。 英伟达通用机器人大模型 GR00T N1 04 22 资料来源:英伟达官网、CSDN,浙商证券产业研究院 VLM模块主要功能是从图像和文本指令中提取特征,并为后续的动作生成提供上下文信息。GR00T N1使用Eagle-2 VLM作为其基础,该模型 在大规模互联网数据上进行了预训练。 输入处理:VLM模块接受图像观测和文本指令作为输入。图像被编码为224×224的分辨率,经过像素重排后生成64个图像token嵌入。这些嵌 入与文本嵌入结合,形成一个丰富的多模态表示。 特征提取:通过对图像和文本的共同编码,模型能够提取出具有高度相关性的特征。在策略训练过程中,任务的文本描述和可能的多张图像 会以对话格式传递给VLM,从而获得形状为(批量大小 × 序列长度 × 隐藏维度)的多模态特征。 英伟达通用机器人大模型 GR00T N1 04 23 资料来源:英伟达官网、CSDN,浙商证券产业研究院 DiT模块负责处理机器人的状态和动作生成。它采用了一种变体的扩散变换器,结合了去噪步骤的自适应层归一化。 状态和动作编码器:针对不同机器人构型的状态和动作,GR00T N1为每种构型使用一个多层感知机(MLP)进行投影,确保所有输入映射到一个共享的嵌入空间。 流匹配机制:GR00T N1使用流匹配(Flow-Matching)技术,通过迭代去噪来生成动作。该模型接收噪声动作、机器人的状态编码、图像token和文本token作为输入。 交叉注意力和自注意力:在DiT中,自注意力模块处理噪声动作token嵌入和状态嵌入,而交叉注意力模块则允许模型根据VLM输出的视觉-语言token嵌入进行条件化。 这样的设计使得模型能够充分利用视觉和语言的信息来指导动作生成。 动作解码器:在最后的DiT模块之后,使用一个特定于构型的动作解码器(另一个MLP)。 英伟达通用机器人大模型 GR00T N1 04 24 资料来源:英伟达官网、CSDN,浙商证券产业研究院 与自动驾驶的训练获取较为简单相比,通用机器人模型数据规模少且存在“数据孤岛” 问题,因此无法建立互联网级统一数据集。对此,英 伟达将视觉语言动作(VLA)训练语料库构建成一个数据金字塔,整合异构数据源,构建覆盖不同抽象层次的训练数据体系。这个数据金字 塔共分为三层:(1)大量网络数据和人类视频构成金字塔的底层;(2)通过物理模拟生成和 / 或借助现成神经模型增强得到的合成数据形 成中间层;(3)在实体机器人硬件上收集的真实世界数据则构成顶层。金字塔的底层提供广泛的视觉和行为先验知识,而顶层确保模型能在 实体机器人执行任务时落地应用。
下载文档到本地,方便使用
共 31 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.