ppt文档 具身智能科技前瞻探索(第3期):多任务操作、第一人称世界模型、低光照与模糊感知 VIP文档

1.12 MB 25 页 4 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
具身智能科技前瞻探索 ( 第 3 期 ) 多任务操作、 第一人称世界模型、 低光照与模糊感 知 2025/04/08/ 为产业发展和投资决策提供最前瞻视角。 本期核心关注多任务操作、 第一人称世界模型、 低光照与模糊感知、 仿真数据生成等六大前沿进展 本期科技前瞻探索摘录来自港科大 ( 广州 ) 、上海交通大学、 浙江大学等研究机构的 6 篇最新学术前沿成果 , 包括 MOE-ACT: 多任务双臂操作规模化学习框架、 Egosim: 面向具身交互生成的第一人称世界仿真器、 E-VLA: 面向暗光与运动模糊场景的事件 增强型 VLA 模型、 CRAFT: 基于视频扩散的双臂机器人操作数据生成框架、 Heracles: 下一代人形机器人通用控制框架、 ThermoAct: 首个融合热感知的 VLA 框架。 风险提示 技术研发进度不及预期风险、技术成果转化不及预期风险、商业化应用不及预期风险。 跟踪具身智能科技前沿 , 解读最新论文成果 , 为产业发展和投融资提供前瞻指 引 02 03 01 《具身智能科技前瞻探索》 第 3 期 2 / CONTENTS 01 02 03 04 05 06 07 3 / 4 / 影响展望 : 1: 对具身智能学术 研究前沿的影响 : 本文为多任务机器人模仿学习提 供 了轻量化的 MOE 融合方案 , 验证了稀疏专家激活机制在缓解多任务干 扰 上的有效性 , 其 FiLM 语言调制与多尺度注意力设计 , 可为后续 ACT 类策 略的多任务优化提供可复用的技术路径 , 同时也为双臂操作场景的轻量 化 多任务学习研究提供了新的实证参考。 2: 对具身智能产业界发展的参考意义 : 本文提出的轻量化框架可在边 缘 端 GPU 完成实时推理 , 适配工业机器人、人形机器人的现场控制需求 ; 其多任务统一策略的优化方案 , 可降低工业场景多任务操作的模型训 练 与 部署成本 , 为 3C 电子、 汽车制造等场景的双臂机器人规模化落地 , 提 供 了轻量化、 易部署的技术优化方向参考。 主要贡献 : 1: 提出轻量化多任务双臂操作框架 MOE-ACT: 将稀疏 MOE 模块融入 ACT 的 Transformer 编 码 器 , 通 过 自 适 应 专 家 激 活 实 现 多 任 务 动 作 分 布 解耦 , 有效缓解多任务学习中的任务干扰与负迁移问题。 2: 设计任务条件化 FiLM 调制机制 : 基于语言指令嵌入动态调整动作令 牌 , 保障动作生成与任务指令的一致性 , 强化模型对不同任务的适配能力。 3: 引入多尺度交叉注意力模块 : 融合高低层级视觉特征 , 为操作控制提 供互补的视觉信息 , 提升复杂场景下的机器人操作性能。 4: 完成多维度实验验证 : 在仿真基准与真实世界双臂平台完成系统验证 , 较主流基线模型实现稳定性能提升 , 为多任务机器人策略学习提供了实证 参考。 《 MOE-ACT: scaling Multi-Task Bimanual Manipulation with sparse Language- conditioned Mixtureoi-Experts 港科大 ( 广州 ) 提出了一套融合稀疏混合专家 (MOE) 模块的轻量化多任务机器人模仿学习框架 MOE-ACT, 有效缓解了统一策略下多任务双臂操 作 1.1 MoE-ACT 《具身智能科技前瞻探索》 第 3 期 5 Transformers 》 20 2 6/ 3 / 16 原文摘要 : 摘要 : 机器人在统一策略下完成多任务的能力 , 是具身智能在真 实家庭与工业场景落地的关键。然而 , 在训练通用机器人策略时 , 任务间的分布外差异往往会引发严重的任务干扰与负迁移问题。为 应对这一挑战 , 我们提出了一套面向双臂操作的轻量化多任务模仿 学习框架 , 即混合专家增强型动作分块 Transformer (MOE-ACT) , 该框架将稀疏混合专家 (MOE) 模块集成至 ACT 的 Transformer 编码器中。 MOE 层将统一的任务策略拆解为可独立调用的专家组 件 , 通过自适应激活 , 在隐空间中自然实现多任务动作分布的解耦。 在解码阶段 , 我们通过逐特征线性调制 (FiLM) 对动作令牌进行 动态调整 , 提升动作生成与任务指令的一致性 ; 同时引入多尺度 交叉注意力 , 使策略能够同时聚焦低层与高层语义特征 , 为机器 人操作提供丰富的视觉信息。我们进一步融入文本信息 , 将框架从 纯视觉模型升级为以视觉为核心、语言条件化的动作生成系统。仿 真环境与真实世界双臂平台的实验验证表明 , MOE-ACT 显著提升了 多任务操作性能 , 平均成功率较原生 ACT 提升 33% 。 上述结果证 明 , MOE- ACT 在复杂多任务双臂操作环境中具备更强的鲁棒性与 泛化能力。 本项目开源页面可访问 : https://j3k7.github.io/MOE-ACT/ 。 1.2 MoE-ACT 数据来源:《 MoE-ACT: Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned Mixture-of-Experts Transformers 》 《具身智能科技前瞻探索》 第 3 期 6 7 / 影响展望 : 1: 对具身智能学术研究前沿的影响 : 本文为第一人称世界模拟器的技 术 优化提供了新的可 行路径 , 其可更新 3D 场景状态的设计思路 , 为长时 序 连续具身交互仿真研究提供了参考 ; 配套的自动化数据处理管道 , 也为 行业解决世界模型训练数据 瓶颈提供了可复用的方案 , 对具身智能世界 模型 的后续迭代研究具备一定的借鉴意义。 2: 对具身智能产业界发展的参考意义 : 本文提出的无标定低成本数据 采 集方案 , 可降低具身智能训练数据的 采集成本 , 对中游机器人算法厂商 优 化训练数据体系有一定参考价值 ; 跨具身迁移能力的验证 , 也为通用机 器人操作算法的泛化性优化提供了探索方向 , 可辅助降低不同机器人硬 件平 台的算法适配成本。 主要贡献 : 1: 提出闭环式第一人称世界模拟器 Egosim: 将 3D 场景建模为可更 新的世界状态 , 解决了现有模拟器视角变化下结构漂移、 多阶段交互无 法更 新场景状态的核心局限。 2: 设计可扩展的自动化数据处理管道 : 可从野生单目第一人称视频中 提取对齐的训练数据对 , 缓解了世界模型训练数据获取难度大的行业瓶 颈。 3: 推出低成本 Egocap 数据采集方案 : 无需预先相机标定 , 仅 用普通 智能手机即可获取视角对齐的配对数据 , 降低了真实世界训练数据的采 集 门槛。 4: 实现性能优化与跨具身迁移适配 : 在视觉质量、 空间一致性等指标 上 优于现有方法 , 同时支持从人类交互到机器人操作的跨具身迁移 , 拓展 了 应用边界。 上海交通大学、上海人工智能实验室、香港大学联合团队提出了一款可持续更新底层 3D 场景状态、生成空间一致的交互视频的闭环式第一人称世界 模拟器 Egosim, 针对性优化了现有同类模拟器空间一致性不足、无法跨多阶段交互更新场景状态的缺陷 , 同时支持向机器人操作任务的跨具身迁移。 《具身智能科技前瞻探索》 第 3 期 EgoSim 《 Egosim: Egocentric world simulator for Embodied Interaction Generation 》 2026/4/1 2.1 8 原文摘要 : 摘要 : 本文提出 Egosim, 一款闭环式第一人称世界模拟器 , 该模拟器可生成空间一致的交互视频 , 并对底层 3D 场景状态进 行持续更新 , 以实现连续仿真。现有第一人称模拟器要么缺乏明 确的 3D 锚定 , 在视角变化下易出现结构漂移 ; 要么将场景视为静态 , 无 法在多阶段交互中更新世界状态。 Egosim 通过将 3D 场景建模为 可更新的世界状态 , 解决了上述两大局限。我们通过几何动作感 知的观测仿真模型生成具身交互 , 同时借助交互感知的状态更新 模块保障空间一致性。针对场景 - 交互对齐训练对获取难度大带来 的关键数据瓶颈 , 我们设计了一套可扩展的处理管道 , 可从大规 模野生单目第一人称视频中提取静态点云、相机轨迹与具身动作。 大量实验表明 , Egosim 在视觉质量、空间一致性 , 以及对复杂 场景和野生灵巧交互的泛化能力上 , 优于现有方法 , 同时支持向 机器人操作任务的跨具身迁移。代码与数据集即将开源 , 项目主页 为 egosimulator.github.io 。 《具身智能科技前瞻探索》 第 3 期 EgoSim 数据来源:《 EgoSim: Egocentric World Simulator for Embodied Interaction Generation 》 2.2 9 10 / 主要贡献 : 1: 提 出 首 个 事 件 增 强型 VLA 框架 E- VLA: 实现了事件 驱动感知与预训 练 VLA 架构的轻量化融合 , 针对性优化了 传统 VLA 在暗光、 运动模糊场 景下的感知失效问题。 2: 搭建开源遥操作平台与配套数据集 : 采集了多任务、 多光照条件下的 RGB - 事件 - 动作同步数据集 , 为事件增强型 VLA 模型的训练与验证提 供 了标准化数据支撑。 3: 设计两类轻量化事件融合策略 : 包含无参数叠加融合与层级事件适配 器方案 , 兼容预训练视觉模型 , 仅新增 13M 参数即可实现性能提升 , 适 配边缘端部署。 4: 完成系统性实验与设计洞察输出 : 通过多组消融实验明确了事件窗口、 训练策略的关 键影响 , 为事件感知与 VLA 模型的融合提供了可复用的工 程化设计参考。 影响展望 : 1: 对具身智能学术研究前沿的影响 : 为事件驱动感知与 VLA 模型的融 合提供了系统性的实证参考 , 验证了无需大规模事件预训练 , 即可通过 轻 量化策略提升 VLA 模型在视觉退化场景的鲁棒性。 其提出的融合方案、 配套数据集与设计洞察 , 可为后续具身智能感知鲁棒性相关研究提供可 复用的技术路径 , 推动 VLA 模型从实验室理想场景向复 杂真实场景的适 配 研究。 2: 对 具 身 智 能 产 业 界 发 展 的 参 考 意 义 : 验 证 了 事 件 相 机 与 VLA 模型融 合的工程可行性 , 为解决工业、 仓储等真实场景中机器人暗光、 高速运 动 下的操作失效问题提供了轻量化解决方案。其无参数叠加融合等低算力需 求的方案 , 可适配边缘端设备部署 , 对提升工业机械臂、 人形机器人在 复 杂光照与动态场景下的落地稳定性具备一定的实践参考价值。 《 E-VLA: Event augmented vision Language Action Model for Dark and Blurred scenes 》 2026/4/6 浙江大学、蚂蚁集团和湖南大学联合提出 E-VLA 框架 , 首次将事件相机感知无缝集成到 VLA 模型中 , 在极端低光 (20 lux) 下将 pick-place 任务 成功率从 0% 提升至 90%, 在严重运动模糊 (1000ms 曝光 ) 下从 0% 提升至 20-25% (pick-place) 及 5% 提升至 32.5% (sorting) 。 3.1 E-VLA VLA 《具身智能科技前瞻探索》 第 3 期 11 原文摘要 : 摘要 : 本文提出 E-VLA, 一套事件增强型视觉 - 语言 - 动作 (VLA) 框架 , 可在传统帧式视觉感知失效的场景下 , 提升机器人 操作的鲁棒性 , 适用场景包括极端低光、运动模糊与黑场裁切等。 不同于从事件流中重建图像的传统方案 , E-VLA 直接利用事件流中 的运动与 结构线索 , 在恶劣工况下保留语义感知能力与感知 - 动 作一致性。 我们搭建了搭载 DAVIS346 事件相机的开源遥操作平台 , 采集了覆 盖多样化任务与光照条件的真实世界 RGB - 事件 - 动作同步数据 集。同时 , 我们设计了轻量化、兼容预训练模型的事件融合策略 , 并研究了事件窗口与融合方案以实现稳定部署。实验结果表明 , 即 便是无参数的简单融合方案 ( 将累积事件图叠加至 RGB 图像 ) , 也能显著提升模型在暗光与强模糊场景下的鲁棒性 : 在 20 勒克斯 光照的 抓取放置任务中 , 纯图像基线模型成功率为 0%, 叠加融 合方案提 升至 60%, 我们的事件适配器方案进一步提升至 90%; 在 1000 毫秒曝光的严重运动模糊场景下 , 抓取放置任务成功率 从 0% 提升至 20%-25%, 分拣任务成功率从 5% 提升至 32.5% 。 总体而言 , E- VLA 为事件驱动感知可有效融入 VLA 模型提供了系统性实证 , 为 突破传统帧式成像限制、打造更具鲁棒性的具身智能指明了方向。 代码与数据集将在 E-VLA 项目页面开源。 3.2 E-VLA VLA 数据来源:《 E-VLA: Event-augmented Vision-Language-Action Model for Dark and Blurred Scenes 》 《具身智能科技前瞻探索》 第 3 期 12 13 / 影响展望 : 1: 对具身智能学术研究前沿的影响 : 本文为双臂机器人示教学习提供了 多维度统一的视频扩散数据生成方案 , 验证了 canny 边缘引导在保留动 作结构、 提升合成数据质量上的有效性。 其七大维度的增强管线设计 , 可 为后续具身智能数据生成 相关研究提供可复用的技术框架 , 同时也为仿真 到现实迁移、 跨本体学习等方向提供了新的实证参考。 2: 对具身智能产业界发展的参考意义 : 本文提出的轻量化数据生成方 案 , 可有效降低工业双臂机器人、 人形机器人操作策略训练的真实数据采集成 本 , 其多维度数据增强能力可提升策略在复杂工业场景的泛化性与鲁棒性 , 为 3C 电子、 汽车零部件装配等场景的双臂机器人规模化落地 , 提供了 低 成本的训练数据解决方案参考。 主要贡献 : 1: 提出统一的双臂机器人数据增强框架 CRAFT: 基于 canny 边缘引 导的视频扩散模型 , 实现物体位姿、 光照、 跨本体迁移等七大维度的统 一数 据增强 , 解决了现有方案增强维度分散、 无法形成完整管线的问题。 2: 设计 canny 边缘结构引导机制 : 以仿真轨迹的边缘轮廓为控制信 号 , 平衡了动作结构保留与视觉多样性生成 , 提升了合成视频的物理合 理性与 时序一致性。 3: 实现零样本跨本体数据生成 : 通过正逆运动学完成轨迹重定向 , 无 需 目标机器人的真实示教数据 , 即可生成适配目标本体的高保真训练数据。 4: 完成多场景 系统实验验证 : 在仿真与真实世界双臂操作任务中完成 全 维度验证 , 较主流基线模型实现稳定性能提升 , 为具身智能数据增强方 案 提供了实证参考。 4.1 CRAFT 南加州大学研究团队提出了一套名为 CRAFT 的 canny 边缘引导视频扩散 Transformer 框架 , 可基于仿真轨迹生成具备时序一致性、同步匹配 动作 《 CRAFT:video Diffusion for Bi manual Robot Data Generati 》 2026/4/4 《具身智能科技前瞻探索》 第 3 期 14 原文摘要 : 摘要 : 基于示教学习的双臂机器人操作能力 , 从根本上受限于真 实世界数据采集成本高、视觉多样性不足的问题 , 这也制约了操 作策略在不同视角、物体配置与机器人本体间的鲁棒性。我们提出 了基于视频扩散 Transformer 的 canny 边缘引导机器人数据生成 框架 (CRAFT) , 这是一套面向双臂操作示教的可规模化数据生成框架 , 能够合成时序连贯的操作视频 , 同时同步生成对应的动作标签。 通过以仿真轨迹中提取的边缘结构线索为条件引导视频扩散模型 , CRAFT 能够生成符合物理规律的轨迹变体 , 支持一套统一的增强 管线 , 覆盖物体位姿变化、相机视角、光照与背景调整、跨本体 迁移 , 以及多视角合成等全维度能力。我们利用预训练视频扩散模 型 , 将仿真视频与对应动作标签转换为与动作一致的示教数据。仅 需少量真实世界示教数据 , CRAFT 即可生成大规模、视觉丰富的 高保真训练数据集 , 无需在真实机器人上复现示教轨迹 ( 即无需 仿真到现实的迁移步骤 ) 。在仿真与真实世界的双臂操作任务中 , CRAFT 相较现有增强策略与简单的数据规模扩容方案 , 实现了任 务成功率的稳定提升 , 验证了基于扩散模型的视频生成能够有效 拓展示教数据多样性 , 提升双臂操作任务的策略泛化能力。本项 目开源页面可访问 : https://craft aug. git hub. io/ 4.2 CRAFT 数据来源:《 CRAFT: Video Diffusion for Bimanual Robot Data Generati 》 《具身智能科技前瞻探索》 第 3 期 15 16 / 影响展望 : 1: 对具身智能学术研究前沿的影响 : 本文为人形机器人控制领域提供 了 跟踪与生成融合的分层架构新 思路 , 验证了状态条件化扩散模型在闭环 控 制中实现隐式模式切换的可行性。其提出的 iFSQ 量化模块与运动学感知 加权设计 , 可为后续通用人形控制器的架构优化提供可复 用的技术参考 , 也为平衡跟踪精度与抗扰鲁棒性的相关研究补充了新的实证数据。 2: 对具身智能产业界发展的参考意义 : 本文提出的轻量化中间件方案 , 可在不重构现有底层跟踪器的前提下 , 提升人形机器人在非结构化场
下载文档到本地,方便使用
共 25 页, 还有 5 页可预览, 继续阅读
文档评分
请文明评论,理性发言.