ppt文档 低空智能—从感知推理迈向群体具身解决方案(38页) VIP文档

11.86 MB 38 页 31 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
全域感知,智驭低空 低空智能 : 从感知推理迈向群体具 身 一、 低空研究背 景 二、 低空数据平 台 三、 低空感知大 脑 CONTEN TS 一、 低空研究背 景 二、 低空数据平 台 三、 低空感知大 脑 CONTEN TS 加入星球获取更多更全的数智化解决方案 2025 年 10 月 , 党的二十届四中全会颁布《中共中央 关于制定国民经济和社会发展第十五个五年规划的建议》 ,其中明确指出 “打造新兴支柱产业 , 加快低空经济等 战略性新兴产业集群发展 , 催生数个万亿元级甚至更 大规模的市场”。 安防巡检 现有巡检市场缺口巨大 安防巡检应用市场规模超过 500 亿 元 水情监测 2021 年河南遭遇特大暴雨 低空智能深化赋能经济转型 低空经济产业已成为国家新兴支柱产业 , 市场需求呈 现井喷式增长 《中共中央关于制定国民经济和社会发展第十五个 五年规划的建议》 应急搜救 2022 年四川泸定 6.8 级地 震 受灾 1478 万人 , 经济损失 1200 亿 元 死亡失踪 117 人 , 经济损失 154 亿 元 复杂环境下 ,低空智能感知面临“看不清” ,“看不准”和“看不全”的挑战 “ 看不全” “ 看不清” “ 看不准” 单机视角有限且存在遮挡 ,无法捕 捉目标在所有角度下的的特征 雨雪雾恶劣天气和低光照环境降低 了无人机对目标的感知清晰度 无人机高速飞行 ,场景动态变化, 降低了感知准确度 语义稀密 从下往上 ,第三排中靠画面最左侧的红色汽车 这个路口中存在的违章行为与异常现象 低空视野广实例密。 在稀疏文本约 束 下 ,从细粒度视觉中辨析细节 , 需 要 精细逻辑进行推理。 复杂环境下 ,低空推理决策面临语义稀密、空间难解与任务繁复的挑 战 感知 目标检测、 目标计数、 场景分类、 异常识别 理解 图像描述、 条件判断、 视觉定位、 高度预测 推理 物理推理、 因果推理、 情景推断、 反事实推理 决策 多机协同、 任务规划、 动作执行、 安全性评估 任务高度多样化 ,在输出结构、 知 识 深度与推理路径上差异巨大 , 需要 跨层次泛化推理能力。 低空强投影与三维信息缺失 , 需 要 理解姿态与视角差异 ,从二维观测 中构建空间推理能力。 这里是什么场景? 变电设施间距多少? 存在安全隐患吗? 斜拍视角进行位置判断与空间度量 任务间推理路径差异化 俯拍视角进行目标感知与属性理解 四维度多种任务形式 空间难解 任务繁复 复杂环境下 ,低空具身智能面临“不可靠” ,“不精准”和“不可控”的挑战 “ 目标理解不可靠” “ 动作生成不精准” “ 体系安全不可控” 行动路径撞上障碍物 动作生成误差导致机械臂需要执行 冗余动作才能完成任务 语言指令与场景理解不稳定 ,任务 目标识别易偏差 端到端决策难以解释 ,对突发场景 响应不足 ,系统级可靠性难以保 障 动作生成误差导致无人机机械臂操作效率低下 无人机并未导航至目标点就提前停止 复杂环境下 ,低空群体智能面临数据缺、 自主差、协同难的挑 战 、协作具身 感知推理 群体执行协调不稳定 多机具身协同难 ,导致群体具身智 能感策控实现难 性能进化难 灾难性遗忘 协同自主进化机制匮乏 ,导致感知 与持续学习能力双重受限 多机协同感知数据 协同感知与具身基础数据匮乏 ,导 致基座构建受限 “ 自主差” “ 协同难” “ 数据缺” 感知大模型 Z Z " 面 F 含 一 场景理解 物体理解 感知评估 协作决策 多机协同具身感知与推理数据缺乏 性 。模型 1 a 模型 2 能 群体协同规划冲突 群体感知不一致 协同 一、 低空研究背 景 二、 低空数据平 台 三、 低空感知大 脑 CONTEN TS 统计机器学习长期关注数据规模、 结构及分布与模型 泛化间规律 前提假设和静态度量失效 经验规律重构新范式导向 数据样本量稀缺 需严格约束模型复杂度 根据数据结构选择模型 维度问题影响模型选择 2017 经典泛化理论质疑: Zhang, C. 《 Understanding deep learning requires rethinking generalization 》 深度学习的 “记忆随机标签”实验 ,质疑经典 VC 维解释泛 化的有效性 2019 双下降现象与复杂度权衡曲线: Belkin, M. 《 Reconciling modern machine learning practice and the bias-variance trade-off 》 提出双下降 ,修正经典 U 形曲线 ,揭示过参数化区域 新动态 1992 年:维度问题与统计估计 Geman, S., et al. 《 Neural networks and the bias/variance dilemma 》 系统阐述非线性模型的偏差 - 方差权衡与数据 维度挑战 1995 年:数据模型经典范式 Vapnik, V. 《 The Nature of Statistical Learning Theory 》 提出结构风险最小化原则 ,建立数据量决定可 安全使用的模型复杂度经典范式 1971 年: VC 维 Vapnik, V. & Chervonenkis, A. 《 On the uniform convergence of events to their probabilities 》 relative frequencies 提出 VC 维 ,连接模型容量与数据样本量 1961 年:维度诅咒 Bellman, R. 《 Adaptive Control Processes: A Guided Tour 》 提出维度诅咒 ,揭示高维空间数据挑战 2010 数据分布局限: Ben-David, S. 《 A theory of learning from different domains 》 突破 IID 假设的局限 ,将 “数 据分布特性”纳入核心分析 框 架 2019 从数据分布学习不变性: Arjovsky, M., et al. 《 Invariant Risk Minimization 》 提出不变风险最小化 ,学习不变特征 2022 年 “ 数据需求” 2023-2024 年 “ 能力涌现” 充分训练 数据 - 参数平衡 的数据 , 是驱动大模型能力进阶的 虚实数据增效 世界模型迁移 非线性跃迁 数据质量至上 2020 年 “ 归纳总结” 发现幂律 参数主导 大模型时代技术迭代也对训练数据的样本规模与质量提出更高标准 2025 年 “ 具身数据受限” 2023 年至今 多源协同感知 数据集 UAVDT VisDrone 2016 年及以前 小规模 检测与追踪数据集 01 2017 年至 2020 年 大规模密集数据与 通用检测数据集 03 VTUAV 2020 年至 2023 年 多模态 动态感知数据集 02 DroneVehicle 04 低空环境感知数据呈现出多任务、 多模态和多源协同特性 以 VisDrone 数据集为代表 ,低空环境感知数据面临简单静态到动态复杂的演进。 AG-ReID UAV-123 现实空间推理 基于多源信息构建物理度量, 在真实环境中进行空间推理。 2024.10 AirCopBench Spatial Sky 仿真感知推理 虚拟城市中对物体属性 , 空间关系进行推理判断。 2025.03 2025.05 以 Spatial Sky 为代表的低空“感知 - 推理 - 决策”一体化数 据 CityEQA 现实推理决策 覆盖多源传感器信息 , 引入 物理约束 ,进行动力学推理、 多机协同、 安全决策等任务 UAVBench 仿真推理决策 因果 / 关联 / 反事实推理; 路线规划与动作输出; 仿 真 ➡ 现 实 泛 化 测 试 仿真感知推理 无人机第一视角场景理解 , 对话问答 , 以及任务规划。 仿真空间推理 在多个视角转换设定下 , 进行定量空间推理。 Open3D-UAV EmbodiedCity 多源推理决策 引入多视角协同推理, 加入多源评估与协作决策。 UrbanVideo 2025.11 2025.02 ! 2022.05 2023.08 2024.06 2024.10 2025.02 2025.02 2025.05 以 AerialVLN 为起点的低空具身智能相关数据集正持续丰富与完 善 CityNav 真 实 点 云 + 地 标 +32637 条指令 AVDN 引入 “ 指挥官 - 机手”对话 ,提 供 3k 对话轨 迹与注意力热图 ,模拟飞行中语 言 澄清 UrbanVideo-Bench 汇集两座真实城市 视 频 + Aerial VLN 环境 ,共 1. 5k 视频 与 5.2k 多选问答 OpenFly 18 座城市场景 , 10 万条轨迹指令, 是当前最大真实 感 VLN 语料 Travel UAV 发布 12k 条 6-DoF 轨迹 ,用于研究语 言辅助规划与控制协 同 VLD 首个面向 无人机 终端投递场景的 视觉语言导航数 据集 AerialVLN AirSim+Unreal 渲 染 25 座城市 , 8k 人 类指令轨迹对 正加速推动群体智能 以 MDOT 为代表的单一视觉感知出发 ,群体智能正实现向复杂具身推理的跨 越 2019.08 2020.11 2020.11 2022.11 2024.05 2024.06 2025.11 CoPerception-UAV 多机高效通信协同 感知数据集 U2UData 面向大规模无人 机集群自主飞行 的数据集 AeroCollab3D 多无人机协同 3D 目标检测 AircoBench 多 无 人 机 具 身 协同推理数据 VRAI 首批跨无人机 重识别数据集 MDMT 首批多机多目 标跟踪数据集 首批多机单目标跟 踪数据集 MDOT 感知大模型 z Z " 面 边端协同 · 性 能 模型 1 模型 2 类增量: 持续学习 进化前 进化后 性能进化: 1 +1 >2 面向 10 万 + 机场的海量巡飞数据 ,如何构建低空模型基座并自主进 化 产出价值: • 持续学习 • 模型进化 核心动作: • 广域知识学习 • 基础能力构建 核心动作: • 大小模型协同 • 能力持续进化 关键特征: • 多模态 • 非结构化 海量低空数据 性 能 进 化 协同进化 边端协同 边端小模型 感知大模型 版本迭代 云端赋能 迭代进 化 类 增 量 场景解 析 关键目标理解 特征融合压缩 轨迹规划与优化 最优轨迹生成 动态跟踪控制 代价加权 板载指令执行 多项式轨迹 低空智能从环境感知、推理决策到控制执行各阶段割裂 ,亟需端到端学习范 式 往前向一点钟方向走。经过马路 以及灰白色的建筑后 , 目的地 就在你进入新街道前的一丛灌木。 大 语 言 模 型 语言编码器 感知理解 动作执行 你快到了。 目的地就在你右方 我离目的地近了吗? [act] [que] LLM 预测头 进程 Δh 图像编 码器 语言输出 我离目的地近了吗? 多模态 大模型 动作解码器 场景理解语义 飞行控制执行 ● Δx, Δy 具身推理 对话历史 任务能力提升 动作指令输出 虚拟场景预测 少量真实数据、 任务反 馈 动作指令生成: Action = F (wt (E(x), o(gps, imu))) 策略函数 感知编码 世界模型进化: wt+ 1 = U(wt, Dreal, Dvirtual, Feedbacktask) 更新算法 真实、 虚拟数据 任务反馈 maximize Eτ [Reward(τ)] 任务约束优化: DKL(DvirtualⅡDreal)≤E 具身任务收益 虚 实一致性约束 低空智能场景中真实数据采集难度大、成本高 ,高质量带精确标注真实数据稀 缺 模型 可进化世界 无人机智能体 VLN 、 VLA 面向低空需求 ,构建大规模低空视觉感知开放数据平 台 VisDrone 开源社区 Star 数 量 图像 / 视频 帧 论文引用量 多任务感知 多模态感知 人群计数 物体追踪 多机感知 目标检测 模型 流水工厂 数据 百城共建 通过数据、模型、场景的三维融合展示 ,为政府、企业、公众提供低空领域的一站式资源入口 ,构建 百 城空域的数据算法基石 ,让低空经济 " 看得见 " 、 " 管得好 " 。 智能化升级 ,效率倍增长 通过 AI 技术赋能 , 实现城市巡检从传统人工模式向 智能化、 标准化、 规模化的跨越式升级 模型赋能 数据驱动 场景适配 平台优势 数据收集时间 场景适配时间 模型训练时间 算法部署效率 前期数据、场景、模型 上耗费时间显著降低 后期算法的效率和 准确度显著提升 场景 配套落地 后期 前期 150% 40% 70% 50% 一、 低空研究背 景 二、 低空数据平 台 三、 低空感知大 脑 CONTEN TS 城市治理 多传感器协同学习 多任务协同学习 多机协同学习 低空环境智能感知理论与方 法 科学问题 研究挑战 关键难题 技术创新 核心贡献 成果应用 “ 看不准” “ 看不全” “ 看不清” 低空感知模型进化难 多机跨视角感知难 复杂环境全天候观测难 应急搜救 安防巡检 防汛监测 n 模态协同性(多模态信息增益): 亚 mod az=I(Y;X(i),X(j))-I(Y;X(i))-I(Y;X(j)) n 任务协同性(共享表示互利): 亚 task=I(Y;T,T)-I(Y;T)-I(Y;T) n 模型协同性(集成互补性): 巫 mode t=I(y;fu,f,)-I(y;fu)-I(y;f) 三者协同的贝叶斯误差: p joint ≤1- earp(-H( x(1-), y� T.x,f:z)) : 越 : 维 , 互 失 体 损 整 度 小 多 强 差 补 越 方 互 性 协 同 补 的 协 的 学 重 差 同 权 误 协 其 高 低 制 差 降 抑 误 体 会 体 个 习 个 协同性是群体协同的前提 ,低空协同学习能够降低贝 叶斯误差 里 joint= 里 modal 十里 task 十 里 model>0 低空协同学习 多维度群体协同 降低了贝叶斯误差 n 多维度与单维度的贝叶斯误差对比: n 低空场景复杂退化多模态数据严重制约感知效能 , 导 致“看不清” 风沙 清晰目标 清晰目标 表观弱 清晰目标 清晰目标 表观弱 恶劣天气和光照条件变化 动态增强低质量图像 低空多传感 器协同学习 如何动态挖掘多模 态有效性? 如何动态复原多种 噪声类型? 挑 战 看不清 多雾 夜间 构建了复杂退化自适应建模理论与复杂多退化统一复原范式 提出了 空场景特征引导的多传感器可信提示动态鲁棒感知方法 感知结果 多源融合图像 低空多传感 器协同学习 解决低空数据易受环境干扰难题 克服场景动态变化的困境 质量提升 IJCV 2024 ( 通讯 )→ NeurIPS 2025 ( 通讯 ) →TPAMI 2025 ( 通讯 ) → ICML 2025 ( 通讯 )→ AAAI 2026( 通讯 ) 复杂多退化 统一复原模型 × T 融合条件 动 态 权 重 不可信 可信 鲁棒感知 动态融合 低空复杂退化、小目标场景 退化自适应基核 退化分布建模 多模态数据 退化机制 多雾天 气 高斯噪 声 + 夜间过暗 白天过曝 恶劣天气条件下低空多模态目标追踪性能提高超过 6% 复杂退化条件下小目标特征增强超过 16 倍 ,检测性能提升超 11% 复杂退化小目标场景低空感知 低空多传感 器协同学习 恶劣天气场景低空感知 IJCV 2024 ( 通讯 )→ NeurIPS 2025 ( 通讯 ) →TPAMI 2025 ( 通讯 ) → ICML 2025 ( 通讯 )→ AAAI 2026( 通讯 ) 79.5 88.6 90.2 16× 图像增强 细化小目标特征 Mobileye Ours 英特尔 Intel 顶 尖视觉感知供应 商 图像增强 多合一自适应复原 ViPT Ours [CVPR 2023] 计算机视觉顶会 低空多种复杂退 化小目标感知 84.1 提高 6.1% 提高 1.4% 小目标检测 AP PR 1 低空感知场景复杂多变 , 任务种类繁杂 ,模型难泛化 , “看不准” 场景复杂多变 & 任务种类繁杂 低空视觉感知模型自主进化难 烟 火 水 车 低空多任 务协同学习 挑 战 如何实现复杂任务场景自主进化? 如何实现多种实景种类自主进化? 山地 洪水 冰面 工地 目标场景需求 原场景需求 单一场景 复杂场景 百景难括众需 一模难应百景 人 房 湖泊 土 井 构建覆盖超广域场景 , 高复杂任务的千万级低空视觉开放数据平台 VisDrone 低空多任 务协同学习 开源社区 Star 数 量 图像 / 视频 帧 论文引用量 多任务感知 多模态感
下载文档到本地,方便使用
共 38 页, 还有 9 页可预览, 继续阅读
文档评分
请文明评论,理性发言.