具身智能标准化研究与评测方法探索

语言	格式	评分
中文（简体）	.pdf	3
概览
2025/07/DTPT —————————— 收稿日期：2025-06-11 0 引言人工智能技术正加速从虚拟环境走向与现实世界交互的“具身智能”新纪元。具身智能（Embodied In⁃ telligence）通过赋予人工智能体物理存在形式，使其能在三维空间中实现环境感知、动态决策与自主行动，构建起“感知—决策—执行”的闭环智能系统。该理念可追溯至 1986 年 Rodney Brooks 提出的“包容式架构” ［1］，它颠覆了传统 AI 对符号推理的依赖，主张智能应通过身体与环境的实时交互自然涌现。2025 年北京亦庄人形机器人半程马拉松赛事中参赛机型展现出的环境适应能力，在一定程度上标志着具身智能已从实验室验证迈向产业化落地。近年来技术突破逐渐形成多维进化格局，在大规模预训练模型方面，深度求索发布的 DeepSeek 系列开源模型显著降低了开发门槛［2］；在硬件创新领域，宇树科技四足机器人全球市场占有率超 60%，上海智元开源机器人灵犀 X1 构建起开发生态［3］；在软硬件协同层面，NVIDIA IsaacGym 平台支持百万智能体并行训练［4］，OpenAI 与 Figure 联合开发的 Figure 01 已实现语关键词：具身智能；标准化；评测体系；应用场景 doi：10.12045/j.issn.1007-3043.2025.07.008 文章编号：1007-3043（2025）07-0046-07 中图分类号：TP18 文献标识码：A 开放科学（资源服务）标识码（OSID）：摘要：具身智能作为融合了人工智能与机器人技术的新范式，是实现物理世界感知、决策与交互的重要路径，对通用人工智能的发展具有关键意义。梳理了具身智能的核心能力维度，分析了当前标准化工作的进展与挑战，提出评测体系设计原则与关键指标，探讨了典型评测方法与平台实践。尽管初步标准框架已形成，但在多模态交互、群体智能等方面仍缺乏系统标准，评测工具亦亟待升级。未来应完善分领域标准、建设权威评测平台、加快国际接轨，并同步推进伦理法律规范，推动具身智能生态规范发展。 Abstract： Embodied intelligence，as a new paradigm integrating artificial intelligence and robotics technology，enables intelligent agents to perceive，decide，and interact within the physical world，serving as a vital pathway toward the development of general artificial intelligence. It reviews the core capabilities of embodied intelligence，analyzes the current status and challenges of standardization efforts，and proposes design principles and key metrics for evaluation systems. Typical evaluation methods and platform practices are also discussed. While a preliminary standard framework has taken shape，systematic standards for multimodal interaction and collective intelligence remain lacking，and evaluation tools require continuous updates. Future efforts should focus on refining domain-specific standards，developing authoritative benchmarking platforms，accelerating international alignment，and promoting ethical and legal frameworks to foster an open and well-regulated embodied intelligence ecosystem. Keywords： Embodied intelligence；Standardization；Evaluation system；Application scenarios 具身智能标准化研究与评测方法探索 Research on Standardization and Evaluation Methodologies of Embodied Intelligence 魏家馨 1，马瑞涛 1，滕一阳 1，王芃 2（1. 中国联通研究院，北京 100048；2. 中国联合网络通信集团有限公司，北京 100033） Wei Jiaxin1，Ma Ruitao1，Teng Yiyang1，Wang Peng2（1. China Unicom Research Institute，Beijing 100048，China；2. China United Net⁃ work Communications Group Co.，Ltd.，Beijing 100033，China）魏家馨，马瑞涛，滕一阳，王芃具身智能标准化研究与评测方法探索本期专题 Monthly Topic 引用格式：魏家馨，马瑞涛，滕一阳，等. 具身智能标准化研究与评测方法探索［J］. 邮电设计技术，2025（7）：46-52. 46 邮电设计技术/2025/07 义级人机交互［5］。这些进展使具身智能体展现出主动环境改造能力，也被业内认为是通向通用人工智能的关键路径。随着全球产业格局加速重构，我国在具身智能领域表现突出，2025 年政府工作报告首次将具身智能纳入国家战略，截至 2025年 4月 9日，我国具身智能专利申请量达 21.99 万件，占全球总量的 26.45%。产业应用呈现多点开花态势，在工业场景中，优必选 Walker S1实现全球首例人机协同产线［6］；在服务领域中，擎朗智能部署超 10 万台设备［7］，覆盖 60 个国家；在医疗康养方面，杭州智元“髋部助行外骨骼”已帮助数万老年人恢复行动能力。与此同时，具身智能标准化建设也已进入攻坚阶段。在技术标准方面，2025 年发布的《人工智能具身智能数据采集规范》解决了多源异构数据碎片化难题；在评测体系领域，中国人工智能产业发展联盟（AIIA）具身智能工作组推出具身智能基准测试方法（EAI Bench），涵盖五大类真实场景测试场；在产业生态层面，人形机器人创新中心建成“麒麟”训练场，实现“数据—模型—训练”的闭环迭代。但当前具身智能发展仍面临硬件“非标化” “高成本”的高门槛、多模态融合算法效率仍偏低、伦理责任界定模糊等挑战。本文通过解析具身智能“技术演进—标准构建—评测验证”协同发展机制，结合产业研报最新研究，以期与产业专家共同探索解决具身智能标准化研究与评测方法。 1 国内外标准化研究现状分析 1.1 国内标准化现状近年来，随着具身智能技术的快速发展，我国逐步展开了该领域的标准化工作，并取得了初步成效。 2024 年中国信息通信研究院与北京人形机器人创新中心有限公司联合发布的《具身智能发展报告》指出，当前具身智能领域存在标准规范缺失、软硬件平台碎片化等问题，亟需构建统一的标准体系以引领产业健康发展［8］。该报告强调缺乏统一的操作系统和标准化开发工具链、硬件耐用性和能效有待提升、技术评测和安全伦理标准空白等因素，制约了具身智能的规模化应用。在国家层面，《国家人工智能产业综合标准化体系建设指南（2024 版）》将具身智能列为人工智能关键技术标准体系的重要组成部分［9］。该指南提出制定多项具身智能相关标准，涵盖多模态交互、自主学习、仿真模拟、群体协同等方面，体现了国家层面对具身智能标准化的顶层设计和统筹规划。在产业层面，AIIA 2023年牵头成立了具身智能工作组，并于 2024 年发布了“具身智能标准体系 1.0”，成为我国该领域首个体系化的标准框架［10］。《具身智能系统总体架构及技术要求》（AIIA/T 0198-2024）和《具身智能产品能力要求与评估方法第 1 部分：家庭陪伴机器人》（AIIA/T 0199-2024）2 项团体标准，分别规定了具身智能系统的参考架构和核心技术能力要求，以及家庭陪伴机器人的评估指标体系，具身智能系统框架国际标准在 ITU-T 成功立项［11］。同时，北京人形机器人创新中心牵头制定的《人形机器人电驱动一体化关节接口规范》硬件接口标准也已通过立项审查。此外，北京具身智能机器人创新中心等机构发布了《具身智能标准化研究报告》《具身智能数据集及评测研究报告》等白皮书，梳理了国内外相关标准，并提出了后续标准研制路线。同时，北京具身智能机器人创新中心联合北京大学计算机学院发布了大规模多构型具身智能数据集及测试基准“RoboMIND”，并牵头立项了国内首个具身智能数据集标准《人工智能具身智能数据采集规范》，推动数据标准化和开源共享。 1.2 国际标准化动态随着具身智能技术的快速发展，国际标准化组织正加速推进相关标准的制定与完善，旨在构建统一的技术框架和评估体系，以促进全球范围内的协同创新与应用落地。通过政府、产业和学术界的协同推进，国际具身智能标准化正逐步从“项目散点”走向“体系收敛”，各主流组织正加速形成统一的技术语言、能力指标与安全评估范式，为全球具身智能技术的协同创新与跨境互认提供基础支撑。 ISO/IEC 第一联合技术委员会（JTC 1）在人工智能领域持续推进标准化工作，在功能安全领域，2022 年发布的《道路车辆-预期功能安全》（SOTIF）（ISO/PAS 21448）标准为自动驾驶和智能系统提供了风险识别与评估的指导框架，强调在无故障情况下系统可能引发的安全风险。2024 年发布的《道路车辆-安全和人工智能》（ISO/PAS 8800）标准进一步扩展了 SOTIF 的适用范围，针对人工智能系统的功能安全风险提出了具体的设计和验证要求，特别适用于具身智能系统在复杂环境中的应用。在具身智能系统的互操作性方面，IEEE 标准协会魏家馨，马瑞涛，滕一阳，王芃具身智能标准化研究与评测方法探索本期专题 Monthly Topic 47 2025/07/DTPT 正在制定 IEEE P2874 异构机器人通信协议标准［12］，旨在通过定义统一的通信协议和接口，实现异构机器人系统之间的高效协同与数据共享。此外，研究人员提出了基于物联网机器人技术（IoRT）的中间件架构，支持多种机器人操作系统在动态环境中的通信与协作，提升了具身智能系统的灵活性和可扩展性。在评测基准建设方面，NVIDIA 推出的 Omniverse 平台为具身智能系统提供了高保真度的仿真环境，支持多模态数据的生成与处理，广泛应用于工业仿真和机器人训练等领域。Meta AI 发布的 AgiBot World 数据集包含但不限于视频、音频和文本样本，为多模态研究提供了丰富的数据资源，促进了具身智能系统在感知与理解方面的能力提升［13］。在系统认证方面，UL 公司发布的 UL 3300 标准为服务、通信、信息、教育和娱乐机器人系统建立了安全要求，涵盖人机交互中的潜在风险，确保具身智能系统在各种应用场景中的安全性［14］。该标准强调在正常使用和可预见的误用条件下，机器人系统不应对人员或环境造成危险，涵盖了移动性、外部操作、用户类别和使用环境等多个方面的安全要求。在数据开放领域，Meta 发起的“Embodied AI Data Consortium”国际数据联盟发布了多模态数据集，用于模型训练与评估一致性验证，推动了具身智能系统的数据共享与标准化。同时其发布了 OpenEQA 数据集，旨在衡量人工智能系统在具身问答任务中的能力，促进了具身智能系统在自然语言理解与环境交互方面的研究。 2 具身智能标准化需求与挑战具身智能作为人工智能与机器人技术深度融合的前沿领域，其标准化工作对推动技术发展、保障系统安全、促进产业协同具有重要意义。然而，当前具身智能标准化仍处于起步阶段，面临着多方面的需求与挑战，需要政府、产业界和学术界的共同努力，构建科学、合理、可行的标准体系，推动具身智能技术的健康发展和广泛应用。 2.1 标准化的核心需求标准化的核心需求主要有以下几个方面。 a）技术规范统一。目前，具身智能系统在硬件构型、软件架构、通信协议等方面缺乏统一标准，导致不同厂商产品之间难以兼容，系统集成复杂，研发成本高。建立统一的技术标准有助于规范机器人硬件接口、传感器数据格式、通信协议等，实现模块化设计和系统协同，提升开发效率。 b）性能评估体系构建。缺乏统一的评测指标和基准，难以客观衡量不同具身智能系统的智能水平和能力边界。构建科学的评测方法和指标体系有助于发现技术短板，指导研发方向，为用户选型提供依据。 c）安全与伦理保障。具身智能系统直接在物理环境中运行，涉及人机共处、安全防护、隐私保护等问题。制定相应的安全设计规范、数据安全要求和伦理准则，可确保系统在设计、部署和运行过程中的安全性和合规性。 d）产业生态构建。统一的标准体系有利于上下游企业分工协作，形成从核心器件、整机制造到应用服务的完整产业链，促进技术推广和商业化落地。 2.2 标准化面临的主要挑战标准化所面临的主要挑战如下。 a）技术复杂性高。具身智能涉及人工智能、机器人、传感器、计算机视觉、通信等多学科交叉领域，技术体系复杂庞大，标准制定需协调各子领域之间的一致性，确保标准体系的完整和协调。 b）技术发展快速。具身智能技术发展迅速，不同路径（如基于规则控制与基于学习的智能）并存，标准制定存在动态演进需求。过早制定过于具体的标准可能束缚创新，但缺乏标准又难以协同，需要在灵活性和统一性之间取得平衡。 c）应用场景多样。具身智能应用场景广泛，涵盖家庭、工业、医疗、交通等多个领域，不同场景下的环境和任务差异大，难以用一套指标评估所有场景的智能水平。标准体系需具备通用框架，同时允许针对细分场景制定补充规范。 d）评测基准缺失。即使提出了某些评估指标，如何证明这些指标能够客观反映智能体的能力仍是挑战，需要大量实验数据的支撑，而目前公开的高质量数据集和评测基准还不充分，部分开源数据质量参差不齐、通用性不足，影响标准有效性。 e）国际标准协调难度大。各国可能基于自身技术优势和利益诉求推动不同的标准，缺乏统一的国际标准，增加了跨国合作和产品出口的难度。应加强国际间的沟通协调，推动标准互认，避免标准割裂。 2.3 应对策略与建议加强数据资源建设，建设高质量、多样化的具身智能数据集［15］，支持标准制定和评测体系构建，提升魏家馨，马瑞涛，滕一阳，王芃具身智能标准化研究与评测方法探索本期专题 Monthly Topic 48 邮电设计技术/2025/07 标准的科学性和适用性。推动标准与技术协同发展，在技术研发初期同步开展标准研究，确保标准与技术同步演进，避免标准滞后于技术发展。逐步推进建立多层次标准体系，构建涵盖基础共性、关键技术、产品应用和评测认证等多个层次的标准体系，既满足通用性需求，又具备针对性和灵活性。与此同时，深化国际合作，积极参与国际标准化组织的工作，推动我国技术和标准走出去，提升国际影响力，实现标准互认，促进全球具身智能产业协同发展。 3 标准及评测体系构建原则与关键技术支撑 3.1 具身智能标准及评测体系构建原则具身智能作为具备感知、认知、决策、执行能力的复杂系统，其标准及评测体系建设应保障系统性、演化性与实践适应性的统一，确保既能全面刻画具身智能的核心能力，又具备面向未来技术演进的开放性。结合当前具身智能标准化研究与典型测评框架，可归纳以下5类构建原则。 a）全面性与针对性并重。评估框架需覆盖具身智能的关键能力维度，包括感知、认知、决策、行为控制、人机交互与通信协作等方面，确保体系结构的完整性。同时，应根据智能体在工业、服务、教育等不同场景中的应用特点，设定具有针对性的任务型指标，增强标准体系的可适配性。 b）客观可量化。所有评估指标应具备明确的度量方式，避免主观判断误差。引入统一的测量单位与基准测试环境，以保证评测结果的可重复性与横向可比性，是推动标准化实施的重要前提。 c）可解释性与可预测性。评估体系不仅应给出系统性能的优劣结论，还应揭示具身智能体在感知理解、策略规划、行为执行等方面的能力短板或瓶颈，指导模型或系统的持续优化。 d）动态扩展与迭代更新。随着具身智能技术的发展，系统将呈现出更多异构性与演化性。因此评测标准应支持模块化构建与动态更新，能够灵活扩展新能力维度（如迭代学习、跨平台迁移等），保持与技术发展的同步性。 e）安全性、伦理性与合规性保障。评测内容和方法应严格遵循安全保护、数据隐私、公平性原则等伦理与合规要求，避免诱发系统行为产生的不良影响，特别是在交互、协作等场景下，应确保行为合法、安全可控。 3.2 具身智能核心技术与关键评估维度具身智能系统作为融合了“感知—认知—行动— 反馈”闭环的新一代智能体，其标准化建设应以核心能力为基础，系统梳理关键技术维度，为标准及评测体系构建提供结构化支撑。结合当前主流研究成果与具身智能系统演化趋势，标准及评测工作可聚焦以下 8个核心技术方向（见图 1），构建系统性能力结构与可量化评估基线，兼顾能力识别、行为建模与指标落地，实现从静态能力到动态演化的全景化评价框架。 a）多模态感知与语义建模能力。具身智能体需图1 具身智能核心技术与关键评估维度伦理合规与功能安全机制任务驱动的分层决策与动作控制形态驱动的行为生成与低功耗控制系统集成与跨平台软硬件协同智能体通信协议与互操作机制多模态感知与语义建模自适应学习与知识迁移多模态人机交互与社会行为感知具身智能核心技术语义同步成功率通信时延空间语义建图模型识别率迁移成功率历史知识保持率自然语言理解率意图识别精度合规性隐私数据隔离因果推理准确率任务规划成功率动作精