具身智能科技前瞻探索（第3期）：多任务操作、第一人称世界模型、低光照与模糊感知

1.12 MB 25 页 4 浏览 0 评论 0 收藏

语言	格式	评分
中文（简体）	.pptx	3
概览
具身智能科技前瞻探索 ( 第 3 期 ) 多任务操作、第一人称世界模型、低光照与模糊感知 2025/04/08/ 为产业发展和投资决策提供最前瞻视角。本期核心关注多任务操作、第一人称世界模型、低光照与模糊感知、仿真数据生成等六大前沿进展本期科技前瞻探索摘录来自港科大 ( 广州 ) 、上海交通大学、浙江大学等研究机构的 6 篇最新学术前沿成果 , 包括 MOE-ACT: 多任务双臂操作规模化学习框架、 Egosim: 面向具身交互生成的第一人称世界仿真器、 E-VLA: 面向暗光与运动模糊场景的事件增强型 VLA 模型、 CRAFT: 基于视频扩散的双臂机器人操作数据生成框架、 Heracles: 下一代人形机器人通用控制框架、 ThermoAct: 首个融合热感知的 VLA 框架。风险提示技术研发进度不及预期风险、技术成果转化不及预期风险、商业化应用不及预期风险。跟踪具身智能科技前沿 , 解读最新论文成果 , 为产业发展和投融资提供前瞻指引 02 03 01 《具身智能科技前瞻探索》第 3 期 2 / CONTENTS 01 02 03 04 05 06 07 3 / 4 / 影响展望 : 1: 对具身智能学术研究前沿的影响 : 本文为多任务机器人模仿学习提供了轻量化的 MOE 融合方案 , 验证了稀疏专家激活机制在缓解多任务干扰上的有效性 , 其 FiLM 语言调制与多尺度注意力设计 , 可为后续 ACT 类策略的多任务优化提供可复用的技术路径 , 同时也为双臂操作场景的轻量化多任务学习研究提供了新的实证参考。 2: 对具身智能产业界发展的参考意义 : 本文提出的轻量化框架可在边缘端 GPU 完成实时推理 , 适配工业机器人、人形机器人的现场控制需求 ; 其多任务统一策略的优化方案 , 可降低工业场景多任务操作的模型训练与部署成本 , 为 3C 电子、汽车制造等场景的双臂机器人规模化落地 , 提供了轻量化、易部署的技术优化方向参考。主要贡献 : 1: 提出轻量化多任务双臂操作框架 MOE-ACT: 将稀疏 MOE 模块融入 ACT 的 Transformer 编码器 , 通过自适应专家激活实现多任务动作分布解耦 , 有效缓解多任务学习中的任务干扰与负迁移问题。 2: 设计任务条件化 FiLM 调制机制 : 基于语言指令嵌入动态调整动作令牌 , 保障动作生成与任务指令的一致性 , 强化模型对不同任务的适配能力。 3: 引入多尺度交叉注意力模块 : 融合高低层级视觉特征 , 为操作控制提供互补的视觉信息 , 提升复杂场景下的机器人操作性能。 4: 完成多维度实验验证 : 在仿真基准与真实世界双臂平台完成系统验证 , 较主流基线模型实现稳定性能提升 , 为多任务机器人策略学习提供了实证参考。《 MOE-ACT: scaling Multi-Task Bimanual Manipulation with sparse Language- conditioned Mixtureoi-Experts 港科大 ( 广州 ) 提出了一套融合稀疏混合专家 (MOE) 模块的轻量化多任务机器人模仿学习框架 MOE-ACT, 有效缓解了统一策略下多任务双臂操作 1.1 MoE-ACT 《具身智能科技前瞻探索》第 3 期 5 Transformers 》 20 2 6/ 3 / 16 原文摘要 : 摘要 : 机器人在统一策略下完成多任务的能力 , 是具身智能在真实家庭与工业场景落地的关键。然而 , 在训练通用机器人策略时 , 任务间的分布外差异往往会引发严重的任务干扰与负迁移问题。为应对这一挑战 , 我们提出了一套面向双臂操作的轻量化多任务模仿学习框架 , 即混合专家增强型动作分块 Transformer (MOE-ACT) , 该框架将稀疏混合专家 (MOE) 模块集成至 ACT 的 Transformer 编码器中。 MOE 层将统一的任务策略拆解为可独立调用的专家组件 , 通过自适应激活 , 在隐空间中自然实现多任务动作分布的解耦。在解码阶段 , 我们通过逐特征线性调制 (FiLM) 对动作令牌进行动态调整 , 提升动作生成与任务指令的一致性 ; 同时引入多尺度交叉注意力 , 使策略能够同时聚焦低层与高层语义特征 , 为机器人操作提供丰富的视觉信息。我们进一步融入文本信息 , 将框架从纯视觉模型升级为以视觉为核心、语言条件化的动作生成系统。仿真环境与真实世界双臂平台的实验验证表明 , MOE-ACT 显著提升了多任务操作性能 , 平均成功率较原生 ACT 提升 33% 。上述结果证明 , MOE- ACT 在复杂多任务双臂操作环境中具备更强的鲁棒性与泛化能力。本项目开源页面可访问 : https://j3k7.github.io/MOE-ACT/ 。 1.2 MoE-ACT 数据来源：《 MoE-ACT: Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned Mixture-of-Experts Transformers 》《具身智能科技前瞻探索》第 3 期 6 7 / 影响展望 : 1: 对具身智能学术研究前沿的影响 : 本文为第一人称世界模拟器的技术优化提供了新的可行路径 , 其可更新 3D 场景状态的设计思路 , 为长时序连续具身交互仿真研究提供了参考 ; 配套的自动化数据处理管道 , 也为行业解决世界模型训练数据瓶颈提供了可复用的方案 , 对具身智能世界模型的后续迭代研究具备一定的借鉴意义。 2: 对具身智能产业界发展的参考意义 : 本文提出的无标定低成本数据采集方案 , 可降低具身智能训练数据的采集成本 , 对中游机器人算法厂商优化训练数据体系有一定参考价值 ; 跨具身迁移能力的验证 , 也为通用机器人操作算法的泛化性优化提供了探索方向 , 可辅助降低不同机器人硬件平台的算法适配成本。主要贡献 : 1: 提出闭环式第一人称世界模拟器 Egosim: 将 3D 场景建模为可更新的世界状态 , 解决了现有模拟器视角变化下结构漂移、多阶段交互无法更新场景状态的核心局限。 2: 设计可扩展的自动化数据处理管道 : 可从野生单目第一人称视频中提取对齐的训练数据对 , 缓解了世界模型训练数据获取难度大的行业瓶颈。 3: 推出低成本 Egocap 数据采集方案 : 无需预先相机标定 , 仅用普通智能手机即可获取视角对齐的配对数据 , 降低了真实世界训练数据的采集门槛。 4: 实现性能优化与跨具身迁移适配 : 在视觉质量、空间一致性等指标上优于现有方法 , 同时支持从人类交互到机器人操作的跨具身迁移 , 拓展了应用边界。上海交通大学、上海人工智能实验室、香港大学联合团队提出了一款可持续更新底层 3D 场景状态、生成空间一致的交互视频的闭环式第一人称世界模拟器 Egosim, 针对性优化了现有同类模拟器空间一致性不足、无法跨多阶段交互更新场景状态的缺陷 , 同时支持向机器人操作任务的跨具身迁移。《具身智能科技前瞻探索》第 3 期 EgoSim 《 Egosim: Egocentric world simulator for Embodied Interaction Generation 》 2026/4/1 2.1 8 原文摘要 : 摘要 : 本文提出 Egosim, 一款闭环式第一人称世界模拟器 , 该模拟器可生成空间一致的交互视频 , 并对底层 3D 场景状态进行持续更新 , 以实现连续仿真。现有第一人称模拟器要么缺乏明确的 3D 锚定 , 在视角变化下易出现结构漂移 ; 要么将场景视为静态 , 无法在多阶段交互中更新世界状态。 Egosim 通过将 3D 场景建模为可更新的世界状态 , 解决了上述两大局限。我们通过几何动作感知的观测仿真模型生成具身交互 , 同时借助交互感知的状态更新模块保障空间一致性。针对场景 - 交互对齐训练对获取难度大带来的关键数据瓶颈 , 我们设计了一套可扩展的处理管道 , 可从大规模野生单目第一人称视频中提取静态点云、相机轨迹与具身动作。大量实验表明 , Egosim 在视觉质量、空间一致性 , 以及对复杂场景和野生灵巧交互的泛化能力上 , 优于现有方法 , 同时支持向机器人操作任务的跨具身迁移。代码与数据集即将开源 , 项目主页为 egosimulator.github.io 。《具身智能科技前瞻探索》第 3 期 EgoSim 数据来源：《 EgoSim: Egocentric World Simulator for Embodied Interaction Generation 》 2.2 9 10 / 主要贡献 : 1: 提出首个事件增强型 VLA 框架 E- VLA: 实现了事件驱动感知与预训练 VLA 架构的轻量化融合 , 针对性优化了传统 VLA 在暗光、运动模糊场景下的感知失效问题。 2: 搭建开源遥操作平台与配套数据集 : 采集了多任务、多光照条件下的 RGB - 事件 - 动作同步数据集 , 为事件增强型 VLA 模型的训练与验证提供了标准化数据支撑。 3: 设计两类轻量化事件融合策略 : 包含无参数叠加融合与层级事件适配器方案 , 兼容预训练视觉模型 , 仅新增 13M 参数即可实现性能提升 , 适配边缘端部署。 4: 完成系统性实验与设计洞察输出 : 通过多组消融实验明确了事件窗口、训练策略的关键影响 , 为事件感知与 VLA 模型的融合提供了可复用的工程化设计参考。影响展望 : 1: 对具身智能学术研究前沿的影响 : 为事件驱动感知与 VLA 模型的融合提供了系统性的实证参考 , 验证了无需大规模事件预训练 , 即可通过轻量化策略提升 VLA 模型在视觉退化场景的鲁棒性。其提出的融合方案、配套数据集与设计洞察 , 可为后续具身智能感知鲁棒性相关研究提供可复用的技术路径 , 推动 VLA 模型从实验室理想场景向复杂真实场景的适配研究。 2: 对具身智能产业界发展的参考意义 : 验证了事件相机与 VLA 模型融合的工程可行性 , 为解决工业、仓储等真实场景中机器人暗光、高速运动下的操作失效问题提供了轻量化解决方案。其无参数叠加融合等低算力需求的方案 , 可适配边缘端设备部署 , 对提升工业机械臂、人形机器人在复杂光照与动态场景下的落地稳定性具备一定的实践参考价值。《 E-VLA: Event augmented vision Language Action Model for Dark and Blurred scenes 》 2026/4/6 浙江大学、蚂蚁集团和湖南大学联合提出 E-VLA 框架 , 首次将事件相机感知无缝集成到 VLA 模型中 , 在极端低光 (20 lux) 下将 pick-place 任务成功率从 0% 提升至 90%, 在严重运动模糊 (1000ms 曝光 ) 下从 0% 提升至 20-25% (pick-place) 及 5% 提升至 32.5% (sorting) 。 3.1 E-VLA VLA 《具身智能科技前瞻探索》第 3 期 11 原文摘要 : 摘要 : 本文提出 E-VLA, 一套事件增强型视觉 - 语言 - 动作 (VLA) 框架 , 可在传统帧式视觉感知失效的场景下 , 提升机器人操作的鲁棒性 , 适用场景包括极端低光、运动模糊与黑场裁切等。不同于从事件流中重建图像的传统方案 , E-VLA 直接利用事件流中的运动与结构线索 , 在恶劣工况下保留语义感知能力与感知 - 动作一致性。我们搭建了搭载 DAVIS346 事件相机的开源遥操作平台 , 采集了覆盖多样化任务与光照条件的真实世界 RGB - 事件 - 动作同步数据集。同时 , 我们设计了轻量化、兼容预训练模型的事件融合策略 , 并研究了事件窗口与融合方案以实现稳定部署。实验结果表明 , 即便是无参数的简单融合方案 ( 将累积事件图叠加至 RGB 图像 ) , 也能显著提升模型在暗光与强模糊场景下的鲁棒性 : 在 20 勒克斯光照的抓取放置任务中 , 纯图像基线模型成功率为 0%, 叠加融合方案提升至 60%, 我们的事件适配器方案进一步提升至 90%; 在 1000 毫秒曝光的严重运动模糊场景下 , 抓取放置任务成功率从 0% 提升至 20%-25%, 分拣任务成功率从 5% 提升至 32.5% 。总体而言 , E- VLA 为事件驱动感知可有效融入 VLA 模型提供了系统性实证 , 为突破传统帧式成像限制、打造更具鲁棒性的具身智能指明了方向。代码与数据集将在 E-VLA 项目页面开源。 3.2 E-VLA VLA 数据来源：《 E-VLA: Event-augmented Vision-Language-Action Model for Dark and Blurred Scenes 》《具身智能科技前瞻探索》第 3 期 12 13 / 影响展望 : 1: 对具身智能学术研究前沿的影响 : 本文为双臂机器人示教学习提供了多维度统一的视频扩散数据生成方案 , 验证了 canny 边缘引导在保留动作结构、提升合成数据质量上的有效性。其七大维度的增强管线设计 , 可为后续具身智能数据生成相关研究提供可复用的技术框架 , 同时也为仿真到现实迁移、跨本体学习等方向提供了新的实证参考。 2: 对具身智能产业界发展的参考意义 : 本文提出的轻量化数据生成方案 , 可有效降低工业双臂机器人、人形机器人操作策略训练的真实数据采集成本 , 其多维度数据增强能力可提升策略在复杂工业场景的泛化性与鲁棒性 , 为 3C 电子、汽车零部件装配等场景的双臂机器人规模化落地 , 提供了低成本的训练数据解决方案参考。主要贡献 : 1: 提出统一的双臂机器人数据增强框架 CRAFT: 基于 canny 边缘引导的视频扩散模型 , 实现物体位姿、光照、跨本体迁移等七大维度的统一数据增强 , 解决了现有方案增强维度分散、无法形成完整管线的问题。 2: 设计 canny 边缘结构引导机制 : 以仿真轨迹的边缘轮廓为控制信号 , 平衡了动作结构保留与视觉多样性生成 , 提升了合成视频的物理合理性与时序一致性。 3: 实现零样本跨本体数据生成 : 通过正逆运动学完成轨迹重定向 , 无需目标机器人的真实示教数据 , 即可生成适配目标本体的高保真训练数据。 4: 完成多场景系统实验验证 : 在仿真与真实世界双臂操作任务中完成全维度验证 , 较主流基线模型实现稳定性能提升 , 为具身智能数据增强方案提供了实证参考。 4.1 CRAFT 南加州大学研究团队提出了一套名为 CRAFT 的 canny 边缘引导视频扩散 Transformer 框架 , 可基于仿真轨迹生成具备时序一致性、同步匹配动作《 CRAFT:video Diffusion for Bi manual Robot Data Generati 》 2026/4/4 《具身智能科技前瞻探索》第 3 期 14 原文摘要 : 摘要 : 基于示教学习的双臂机器人操作能力 , 从根本上受限于真实世界数据采集成本高、视觉多样性不足的问题 , 这也制约了操作策略在不同视角、物体配置与机器人本体间的鲁棒性。我们提出了基于视频扩散 Transformer 的 canny 边缘引导机器人数据生成框架 (CRAFT) , 这是一套面向双臂操作示教的可规模化数据生成框架 , 能够合成时序连贯的操作视频 , 同时同步生成对应的动作标签。通过以仿真轨迹中提取的边缘结构线索为条件引导视频扩散模型 , CRAFT 能够生成符合物理规律的轨迹变体 , 支持一套统一的增强管线 , 覆盖物体位姿变化、相机视角、光照与背景调整、跨本体迁移 , 以及多视角合成等全维度能力。我们利用预训练视频扩散模型 , 将仿真视频与对应动作标签转换为与动作一致的示教数据。仅需少量真实世界示教数据 , CRAFT 即可生成大规模、视觉丰富的高保真训练数据集 , 无需在真实机器人上复现示教轨迹 ( 即无需仿真到现实的迁移步骤 ) 。在仿真与真实世界的双臂操作任务中 , CRAFT 相较现有增强策略与简单的数据规模扩容方案 , 实现了任务成功率的稳定提升 , 验证了基于扩散模型的视频生成能够有效拓展示教数据多样性 , 提升双臂操作任务的策略泛化能力。本项目开源页面可访问 : https://craft aug. git hub. io/ 4.2 CRAFT 数据来源：《 CRAFT: Video Diffusion for Bimanual Robot Data Generati 》《具身智能科技前瞻探索》第 3 期 15 16 / 影响展望 : 1: 对具身智能学术研究前沿的影响 : 本文为人形机器人控制领域提供了跟踪与生成融合的分层架构新思路 , 验证了状态条件化扩散模型在闭环控制中实现隐式模式切换的可行性。其提出的 iFSQ 量化模块与运动学感知加权设计 , 可为后续通用人形控制器的架构优化提供可复用的技术参考 , 也为平衡跟踪精度与抗扰鲁棒性的相关研究补充了新的实证数据。 2: 对具身智能产业界发展的参考意义 : 本文提出的轻量化中间件方案 , 可在不重构现有底层跟踪器的前提下 , 提升人形机器人在非结构化场