低空智能—从感知推理迈向群体具身解决方案（38页）

语言	格式	评分
中文（简体）	.pptx	3
概览
全域感知，智驭低空低空智能 : 从感知推理迈向群体具身一、低空研究背景二、低空数据平台三、低空感知大脑 CONTEN TS 一、低空研究背景二、低空数据平台三、低空感知大脑 CONTEN TS 加入星球获取更多更全的数智化解决方案 2025 年 10 月，党的二十届四中全会颁布《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》，其中明确指出 “打造新兴支柱产业，加快低空经济等战略性新兴产业集群发展，催生数个万亿元级甚至更大规模的市场”。安防巡检现有巡检市场缺口巨大安防巡检应用市场规模超过 500 亿元水情监测 2021 年河南遭遇特大暴雨低空智能深化赋能经济转型低空经济产业已成为国家新兴支柱产业，市场需求呈现井喷式增长《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》应急搜救 2022 年四川泸定 6.8 级地震受灾 1478 万人，经济损失 1200 亿元死亡失踪 117 人，经济损失 154 亿元复杂环境下，低空智能感知面临“看不清” ，“看不准”和“看不全”的挑战 “ 看不全” “ 看不清” “ 看不准” 单机视角有限且存在遮挡，无法捕捉目标在所有角度下的的特征雨雪雾恶劣天气和低光照环境降低了无人机对目标的感知清晰度无人机高速飞行，场景动态变化，降低了感知准确度语义稀密从下往上，第三排中靠画面最左侧的红色汽车这个路口中存在的违章行为与异常现象低空视野广实例密。在稀疏文本约束下，从细粒度视觉中辨析细节，需要精细逻辑进行推理。复杂环境下，低空推理决策面临语义稀密、空间难解与任务繁复的挑战感知目标检测、目标计数、场景分类、异常识别理解图像描述、条件判断、视觉定位、高度预测推理物理推理、因果推理、情景推断、反事实推理决策多机协同、任务规划、动作执行、安全性评估任务高度多样化，在输出结构、知识深度与推理路径上差异巨大，需要跨层次泛化推理能力。低空强投影与三维信息缺失，需要理解姿态与视角差异，从二维观测中构建空间推理能力。这里是什么场景？变电设施间距多少？存在安全隐患吗？斜拍视角进行位置判断与空间度量任务间推理路径差异化俯拍视角进行目标感知与属性理解四维度多种任务形式空间难解任务繁复复杂环境下，低空具身智能面临“不可靠” ，“不精准”和“不可控”的挑战 “ 目标理解不可靠” “ 动作生成不精准” “ 体系安全不可控” 行动路径撞上障碍物动作生成误差导致机械臂需要执行冗余动作才能完成任务语言指令与场景理解不稳定，任务目标识别易偏差端到端决策难以解释，对突发场景响应不足，系统级可靠性难以保障动作生成误差导致无人机机械臂操作效率低下无人机并未导航至目标点就提前停止复杂环境下，低空群体智能面临数据缺、自主差、协同难的挑战、协作具身感知推理群体执行协调不稳定多机具身协同难，导致群体具身智能感策控实现难性能进化难灾难性遗忘协同自主进化机制匮乏，导致感知与持续学习能力双重受限多机协同感知数据协同感知与具身基础数据匮乏，导致基座构建受限 “ 自主差” “ 协同难” “ 数据缺” 感知大模型 Z Z " 面 F 含一场景理解物体理解感知评估协作决策多机协同具身感知与推理数据缺乏性。模型 1 a 模型 2 能群体协同规划冲突群体感知不一致协同一、低空研究背景二、低空数据平台三、低空感知大脑 CONTEN TS 统计机器学习长期关注数据规模、结构及分布与模型泛化间规律前提假设和静态度量失效经验规律重构新范式导向数据样本量稀缺需严格约束模型复杂度根据数据结构选择模型维度问题影响模型选择 2017 经典泛化理论质疑： Zhang, C. 《 Understanding deep learning requires rethinking generalization 》深度学习的 “记忆随机标签”实验，质疑经典 VC 维解释泛化的有效性 2019 双下降现象与复杂度权衡曲线： Belkin, M. 《 Reconciling modern machine learning practice and the bias-variance trade-off 》提出双下降，修正经典 U 形曲线，揭示过参数化区域新动态 1992 年：维度问题与统计估计 Geman, S., et al. 《 Neural networks and the bias/variance dilemma 》系统阐述非线性模型的偏差 - 方差权衡与数据维度挑战 1995 年：数据模型经典范式 Vapnik, V. 《 The Nature of Statistical Learning Theory 》提出结构风险最小化原则，建立数据量决定可安全使用的模型复杂度经典范式 1971 年： VC 维 Vapnik, V. & Chervonenkis, A. 《 On the uniform convergence of events to their probabilities 》 relative frequencies 提出 VC 维，连接模型容量与数据样本量 1961 年：维度诅咒 Bellman, R. 《 Adaptive Control Processes: A Guided Tour 》提出维度诅咒，揭示高维空间数据挑战 2010 数据分布局限： Ben-David, S. 《 A theory of learning from different domains 》突破 IID 假设的局限，将 “数据分布特性”纳入核心分析框架 2019 从数据分布学习不变性： Arjovsky, M., et al. 《 Invariant Risk Minimization 》提出不变风险最小化，学习不变特征 2022 年 “ 数据需求” 2023-2024 年 “ 能力涌现” 充分训练数据 - 参数平衡的数据，是驱动大模型能力进阶的虚实数据增效世界模型迁移非线性跃迁数据质量至上 2020 年 “ 归纳总结” 发现幂律参数主导大模型时代技术迭代也对训练数据的样本规模与质量提出更高标准 2025 年 “ 具身数据受限” 2023 年至今多源协同感知数据集 UAVDT VisDrone 2016 年及以前小规模检测与追踪数据集 01 2017 年至 2020 年大规模密集数据与通用检测数据集 03 VTUAV 2020 年至 2023 年多模态动态感知数据集 02 DroneVehicle 04 低空环境感知数据呈现出多任务、多模态和多源协同特性以 VisDrone 数据集为代表，低空环境感知数据面临简单静态到动态复杂的演进。 AG-ReID UAV-123 现实空间推理基于多源信息构建物理度量，在真实环境中进行空间推理。 2024.10 AirCopBench Spatial Sky 仿真感知推理虚拟城市中对物体属性，空间关系进行推理判断。 2025.03 2025.05 以 Spatial Sky 为代表的低空“感知 - 推理 - 决策”一体化数据 CityEQA 现实推理决策覆盖多源传感器信息，引入物理约束，进行动力学推理、多机协同、安全决策等任务 UAVBench 仿真推理决策因果 / 关联 / 反事实推理；路线规划与动作输出；仿真 ➡ 现实泛化测试仿真感知推理无人机第一视角场景理解，对话问答，以及任务规划。仿真空间推理在多个视角转换设定下，进行定量空间推理。 Open3D-UAV EmbodiedCity 多源推理决策引入多视角协同推理，加入多源评估与协作决策。 UrbanVideo 2025.11 2025.02 ! 2022.05 2023.08 2024.06 2024.10 2025.02 2025.02 2025.05 以 AerialVLN 为起点的低空具身智能相关数据集正持续丰富与完善 CityNav 真实点云 + 地标 +32637 条指令 AVDN 引入 “ 指挥官 - 机手”对话，提供 3k 对话轨迹与注意力热图，模拟飞行中语言澄清 UrbanVideo-Bench 汇集两座真实城市视频 + Aerial VLN 环境，共 1. 5k 视频与 5.2k 多选问答 OpenFly 18 座城市场景， 10 万条轨迹指令，是当前最大真实感 VLN 语料 Travel UAV 发布 12k 条 6-DoF 轨迹，用于研究语言辅助规划与控制协同 VLD 首个面向无人机终端投递场景的视觉语言导航数据集 AerialVLN AirSim+Unreal 渲染 25 座城市， 8k 人类指令轨迹对正加速推动群体智能以 MDOT 为代表的单一视觉感知出发，群体智能正实现向复杂具身推理的跨越 2019.08 2020.11 2020.11 2022.11 2024.05 2024.06 2025.11 CoPerception-UAV 多机高效通信协同感知数据集 U2UData 面向大规模无人机集群自主飞行的数据集 AeroCollab3D 多无人机协同 3D 目标检测 AircoBench 多无人机具身协同推理数据 VRAI 首批跨无人机重识别数据集 MDMT 首批多机多目标跟踪数据集首批多机单目标跟踪数据集 MDOT 感知大模型 z Z " 面边端协同 · 性能模型 1 模型 2 类增量：持续学习进化前进化后性能进化： 1 +1 >2 面向 10 万 + 机场的海量巡飞数据，如何构建低空模型基座并自主进化产出价值： • 持续学习 • 模型进化核心动作： • 广域知识学习 • 基础能力构建核心动作： • 大小模型协同 • 能力持续进化关键特征： • 多模态 • 非结构化海量低空数据性能进化协同进化边端协同边端小模型感知大模型版本迭代云端赋能迭代进化类增量场景解析关键目标理解特征融合压缩轨迹规划与优化最优轨迹生成动态跟踪控制代价加权板载指令执行多项式轨迹低空智能从环境感知、推理决策到控制执行各阶段割裂，亟需端到端学习范式往前向一点钟方向走。经过马路以及灰白色的建筑后，目的地就在你进入新街道前的一丛灌木。大语言模型语言编码器感知理解动作执行你快到了。目的地就在你右方我离目的地近了吗？ [act] [que] LLM 预测头进程 Δh 图像编码器语言输出我离目的地近了吗？多模态大模型动作解码器场景理解语义飞行控制执行 ● Δx, Δy 具身推理对话历史任务能力提升动作指令输出虚拟场景预测少量真实数据、任务反馈动作指令生成： Action = F (wt (E(x), o(gps, imu))) 策略函数感知编码世界模型进化： wt+ 1 = U(wt, Dreal, Dvirtual, Feedbacktask) 更新算法真实、虚拟数据任务反馈 maximize Eτ [Reward(τ)] 任务约束优化： DKL(DvirtualⅡDreal)≤E 具身任务收益虚实一致性约束低空智能场景中真实数据采集难度大、成本高，高质量带精确标注真实数据稀缺模型可进化世界无人机智能体 VLN 、 VLA 面向低空需求，构建大规模低空视觉感知开放数据平台 VisDrone 开源社区 Star 数量图像 / 视频帧论文引用量多任务感知多模态感知人群计数物体追踪多机感知目标检测模型流水工厂数据百城共建通过数据、模型、场景的三维融合展示，为政府、企业、公众提供低空领域的一站式资源入口，构建百城空域的数据算法基石，让低空经济 " 看得见 " 、 " 管得好 " 。智能化升级，效率倍增长通过 AI 技术赋能，实现城市巡检从传统人工模式向智能化、标准化、规模化的跨越式升级模型赋能数据驱动场景适配平台优势数据收集时间场景适配时间模型训练时间算法部署效率前期数据、场景、模型上耗费时间显著降低后期算法的效率和准确度显著提升场景配套落地后期前期 150% 40% 70% 50% 一、低空研究背景二、低空数据平台三、低空感知大脑 CONTEN TS 城市治理多传感器协同学习多任务协同学习多机协同学习低空环境智能感知理论与方法科学问题研究挑战关键难题技术创新核心贡献成果应用 “ 看不准” “ 看不全” “ 看不清” 低空感知模型进化难多机跨视角感知难复杂环境全天候观测难应急搜救安防巡检防汛监测 n 模态协同性（多模态信息增益）：亚 mod az=I(Y;X(i),X(j))-I(Y;X(i))-I(Y;X(j)) n 任务协同性（共享表示互利）：亚 task=I(Y;T,T)-I(Y;T)-I(Y;T) n 模型协同性（集成互补性）：巫 mode t=I(y;fu,f,)-I(y;fu)-I(y;f) 三者协同的贝叶斯误差： p joint ≤1- earp(-H( x(1-), y� T.x,f:z)) ：越：维，互失体损整度小多强差补越方互性协同补的协的学重差同权误协其高低制差降抑误体会体个习个协同性是群体协同的前提，低空协同学习能够降低贝叶斯误差里 joint= 里 modal 十里 task 十里 model>0 低空协同学习多维度群体协同降低了贝叶斯误差 n 多维度与单维度的贝叶斯误差对比： n 低空场景复杂退化多模态数据严重制约感知效能，导致“看不清” 风沙清晰目标清晰目标表观弱清晰目标清晰目标表观弱恶劣天气和光照条件变化动态增强低质量图像低空多传感器协同学习如何动态挖掘多模态有效性？如何动态复原多种噪声类型？挑战看不清多雾夜间构建了复杂退化自适应建模理论与复杂多退化统一复原范式提出了空场景特征引导的多传感器可信提示动态鲁棒感知方法感知结果多源融合图像低空多传感器协同学习解决低空数据易受环境干扰难题克服场景动态变化的困境质量提升 IJCV 2024 ( 通讯 )→ NeurIPS 2025 ( 通讯 ) →TPAMI 2025 ( 通讯 ) → ICML 2025 ( 通讯 )→ AAAI 2026( 通讯 ) 复杂多退化统一复原模型 × T 融合条件动态权重不可信可信鲁棒感知动态融合低空复杂退化、小目标场景退化自适应基核退化分布建模多模态数据退化机制多雾天气高斯噪声 + 夜间过暗白天过曝恶劣天气条件下低空多模态目标追踪性能提高超过 6% 复杂退化条件下小目标特征增强超过 16 倍，检测性能提升超 11% 复杂退化小目标场景低空感知低空多传感器协同学习恶劣天气场景低空感知 IJCV 2024 ( 通讯 )→ NeurIPS 2025 ( 通讯 ) →TPAMI 2025 ( 通讯 ) → ICML 2025 ( 通讯 )→ AAAI 2026( 通讯 ) 79.5 88.6 90.2 16× 图像增强细化小目标特征 Mobileye Ours 英特尔 Intel 顶尖视觉感知供应商图像增强多合一自适应复原 ViPT Ours [CVPR 2023] 计算机视觉顶会低空多种复杂退化小目标感知 84.1 提高 6.1% 提高 1.4% 小目标检测 AP PR 1 低空感知场景复杂多变，任务种类繁杂，模型难泛化， “看不准” 场景复杂多变 & 任务种类繁杂低空视觉感知模型自主进化难烟火水车低空多任务协同学习挑战如何实现复杂任务场景自主进化？如何实现多种实景种类自主进化？山地洪水冰面工地目标场景需求原场景需求单一场景复杂场景百景难括众需一模难应百景人房湖泊土井构建覆盖超广域场景，高复杂任务的千万级低空视觉开放数据平台 VisDrone 低空多任务协同学习开源社区 Star 数量图像 / 视频帧论文引用量多任务感知多模态感