word文档 AI可信数据空间(54页 WORD) VIP文档

4.11 MB 55 页 18 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.docx
3
概览
践行深度用云 AI 可信数据空间 白皮书 编制单位 编委顾问 编写成员 贵州省数据流通交易服务中心 贵州大数据集团 贵州贵旅数网科技有限公司 华为云计算技术有限公司 (排名不分先后) 朱宗尧 徐 昊 张 广 肖 霏 潘伟杰 金 凯 艾晓松 胡琼元 黄籽渝 赵 将 吕 东 宋 雪 胡 鹤 袁 波 吴 越 邓龙江 刘志杰 刘泥君 代新敏 王似巍 冯俊峰 吴忠林 李 勇 龙 婕 杨文敬 张洪能 尹舒鹤 李 媛 杨 松 张 中 黄 涛 陈 媛 黄 松 杨舒宁 徐 强 徐 俊 悦 怡 张志刚 霍战鹏 邝逸鹤 周 岩 王 立 乔丽娜 陈 勇 邴 丽 孙梦龙 陈 玙 杨梦辉 唐如兵 雷鸿伟 郑 辉 张小军 柏 君 孙思东 张鑫洁 唐 文 张 溯 陈吉栋 叶 飞 白文武 何志强 (排名不分先后) 01 P R E PA R AT I O N C O M M I T T E E 编 制 委 员 会 CONTENT S 数据空间与人工智能 协同发展挑战 1 、数据空间发展与挑战 1、新体系:数模协同 2 、人工智能大模型语料发展与挑战 2、新架构: AI 可信数据空间 3、数据空间与 AI 协同发展的关键挑战 3、新生态:数智共生 0 AI 可信数据空 间顶层设计 0 目 录 15- 06- 03 1、贵州大数据集团公共数据授权运营空间实践 2、贵州省文旅行业数据空间及大模型实践 3、上海数据集团城市数据空间实践 4、深圳南山数据可信流通服务探索实践 5、华为企业数据空间探索实践 0 36-49 最佳实践案 50-51 参考引 前言 PREFACE 构建可信数据空间与人工智能协同创新范式,开启人工智能新时代。 在数字文明加速迭代进化的时代洪流中,数据与人工智能共生发展正重塑全球经济的格 局。数据作为我国第五大生产要素,其价值释放的深度与广度,直接决定了人工智能产 “ ” “ ” 业从 感知智能 向 认知智能 跃迁的新高度。当前全球数据总量虽呈指数级增长(2023 年突破 175ZB), 但高质量语料尤其是中文语料严重匮乏,实际流通率却不足 5%。数据 “ ” 产业面临 不敢共享、不愿共享、不能共享 的困局如同无形枷锁禁锢着 AI 创新的步伐。 比如医疗数据因隐私顾虑难以赋能疾病预测模型,工业数据因竞争壁垒阻碍供应链协 同优化,金融数据因权属模糊制约风险管控精度,这些挑战的本质,是数据要素市场化 “ ” 配置过程中 信任基础 的不足,也将严重制约着人工智能产业的发展。 国家数据局重磅出台《可信数据空间发展行动计划(2024—2028 年)》,以国家战略方 式推动可信数据空间的加速建设,预计 2028 年国内将建成 100 个以上可信数据空间, “ ” 包括城市、行业、企业、个人、跨境五类可信空间,打通数据要素流通的 最后一公里 。在 AI 时代,可信数据空间是战略级新型数据基础设施,它不是单一技术、工具的堆砌,而是 制度规则、技术架构、生态系统三位一体协同的创新范式,将成为全域数字化转型的核 心数字底座。 随着人工智能技术指数级增长,生产型 AI 场景 “ 爆发式应用,大模型对高质量数据的 饥 ” 渴需求 进一步放大了可信数据空间的价值。本白皮书结合新技术的理解与创新实践的 探索,梳理可信数据空间与 AI 协同发展的技术路径、制度框 架与实践蓝图,提出 AI 可 信数据空间的顶层设计与创新架构,希望借此推动产业共识,联合各界探索数据要素市 “ 场化改革的灯塔,共同开启 数据可信即 AI ” 未来 的新纪元。 05 数据空间与人工智 能协同发展 挑战 1、数据空间发展与挑战 1.1 数据空间国内外发展趋势 国际 数 据空间(IDS, International Data Space) 的概念最早起源于欧洲,旨在解决数据孤岛、隐私 安全和权属不清等问题,推动数据的高效流通与价 值释放,促进数字经济的快速发展。 2016 年,德国工业 4.0 战略率先提出工业数据空间 的概念,随后欧盟推出《欧洲数据战略》,将数据空 间建设提升至战略高度。美国、日本等国纷纷跟进, 结合自身特点探索数据空间建设模式。截至 2024 年, 全球已建成超过 200 个可信数据空间,覆盖工业、医 疗、金融、能源、农业、交通等多个领域,实现了数据 的安全可信流通与价值共创,成为数字经济高质量发 展的关键基础设施。 欧盟是国际数据空间建设的先行者,其发展模式以 联邦式去中心化为核心。欧盟通过《欧洲数据战略》、 《数据治理法案》、《数据法案》等政策文件,强调数 据主权、多方协同治理和标准化,GDPR(通用数据 保护条例)为数据保护奠定了法律基础。 在技术架构上,欧盟以 GAIA-X、IDSA 为代表,采用 联邦式、去中心化架构。数据不集中存储,而是保 留在数据源地,通过联邦学习、隐私计算等技术实 现协同分析。此外,还利用区块链、分布式身份认 证等技术,保障数据流通的安全与可控。通过连接 器机制(Connector Mechanism),实现了不同系 统间的数据互操作,提升跨域数据流通效率。 在生态与应用方面,欧盟已启动 14 个共同数据空 间,覆盖工业制造、医疗健康、金融、能源、农业等领 域。典型案例 包括 Catena-X(汽车行业)、欧洲健康 数据空间(EHDS)、德国工业数据空间(IDS)等。 这些数据空间推动了产业链上下游企业的数据共享 与协同创新,为欧盟数字经济的发展注入了新动能。 全球可信数据空间建设发展日趋成熟,随着国家数 据局的战略布局和重点工作推进,我国可信数据空 间的建设已逐步从试点探索走向规模化建设。2024 年 11 月国家数据局发布《可信数据空间发展行动 计划(2024—2028 年)》,首次在国家层面对这一 新型数据基础 设施系统布局,明确到 2028 年建成 100 个以上可信数据空间的目标。 建制度 立顶设 强行动 促发展 建制度框架 指引建设方向 规划蓝图 激发数据要素潜能 场景驱动价值 释放数据要素乘数效应 全面开展 可信数据空间试点规模建设 2022 2023.12 2024.1 1 2025.0 7 国务院《要素市场化配置综合改革 试点总体方案》、《数据二十条》 破除要素流动障碍, 提升协同效率 第二届数字政府建设峰会提出: 让 “ ”“ ”“ ” 数据 供得出 流得动 用得好 国家数据局《可信数据空间发展行 动计划 (2024—2028 年) 》 提出建设 100+可信数据空间 国家数据局《2025 年可信数据空 间创新发展试点名单》 公布首批申报成功的 63 个可信 数据空间试点项目名单 图 1 可信数据空间建设发展历程 07 我国可信数据空间的建设可以分为四个主要阶段: · 第一阶段:建制度(2020-2022 年):国务院陆续 发布《关于构建更加完善的要素市场化配置体制机 制的意见》、《关于构建数据基础制度更好发挥数 据要素作用的意见》等文件,明确数据列为新型生产 “ ” 要素,提出 三权分置 等制度,形成基础的制度框架, 明确数据要素使用规则,为数据要素市场化配置奠 定基础。 · 第二阶段:立顶设(2023-2024 年):数据局负责 完成发布《数字中国建设整体布局规划》,明确构 建 “ 全国一体化数据资源体系,提出让数据 供的出、流 得 ” 动、用得好 的顶层设计方案。 · 第三阶段:强行动(2024-2025 年): “ 陆续发布《 数 据要素 ×”三年行动计划(2024—2026 年)》、《公共 数据资源授权运营实施规范(试行)》等管理要求,推 动数据要素在各行业的应用与价值释放,明确从登 记→授权→定价的完整链条。同时发布《可信数据 空间 发展行动计划 2024-2028》明确可信数据空间 定义 与定位,提出 100+ 可信数据空间建设目标。 · 第四阶段:促发展(2025 年 -):数据局发布 《2025 年可信数据空间创新发展试点名单》、数标委 发布《可信数据空间技术架构》,进一步加强牵引各 类数据空间的加快建设。 1.2 可信数据空间主要挑战 可信数据空间作为国家数据基础设施的重要组成部 分,作为全域数字化转型的新型底座通过构建安全 可信的数据流通利用环境,促进数据资源的共享共 用,进而释放数据要素价值。国家数据局发布行动 计划明确推进企业、行业、城市、个人、跨境五类可 信数据空间建设,可信数据空间建设目前还处于发展 初期面临诸多堵点问题与挑战: · 挑战一、数据供给意愿不足 ① 权属不清与价值分配难:数据产权界定模糊,数 据供给方担心共享后失去控制权或收益被稀释。例 如,担忧数据泄露导致核心竞争力丧失; ② 合规成本高:数据分级分类标准不统一,敏感数 据(如医疗、金融)脱敏处理需专业团队,数据供给 方难以承担人力与资金成本。 · 挑战二、数据流通效率低 ① 跨域系统数据协议不统一:政府、企业、行业数 据分散在异构应用系统中,数据结构、接口标准不统 一,跨域流通效率低; ② 安全与实时性矛 “ 盾:为满足 数据不出域、可用不可 ” 见 安全要求,隐私计算(如多方计算、同态加密、联 合分析)导致计算性能延迟增加 50% 以上,难以支 撑高价值场景(金融、物流、交通)等低时延响应 要求。 08 · 挑战三、高质量语料稀缺 政府、金融、医疗、制造等行业大模型专业语料稀缺, 海量多模态数据(文本、图像、传感器)待标注数 据占比高,高质量语料转化率低(语义缺失、时效 滞后等),无法满足行业大模型训练推理阶段对行 业标注数据的诉求。 · 挑战四、安全能力参差不齐 数据流通涉及数据提供方、使用方、服务运营方等 众多参与主体,不同主体的网络安全、传输安全、数 据安全等防护水平差异较大,容易成为攻击者突破的 薄弱环节,无法满足全链路数据安全防护要求。 2、人工智能大模型语料发展与挑战 2.1 人工智能大模型语料发展趋势 1. 从大语言模型到多模态 / 具身智能大模型的语料演进 当前大模型技术正经历从弱人工智能(机器学习、神经网络、大语言模型)向通用人工智能(Agent、多模态、 具身智能)的范式跃迁。这不仅对于模型架构的设计理念进行了重构,同时也对大模型各阶段的训练语料提出 全新要求。 1942 1956 2022 2025 模拟人脑 神经元素 达特茅斯 会议 chatGPT 发布 openAI O3 发布 Deepseek R1 发布 图 2 大模型技术发展演进阶段 09 公开数 2c 现象级应 首先,对多模态关联的复杂语料需求日益迫切。针对 大模型语料质量,传统纯文本数据已经无法支撑多 模态与具身大模型联合建模的需求。业界实践表 明,在多模态场景下的语料供给,需要进行跨模态 语料数据精准对齐,实践通过融合图文信息,运动 轨迹,场景数据,使得复杂论文的解析准确率提升 37%。此类多模态场景在处理包含图表、公式的复杂 文档时,需要在语料标准中体现语义逻辑关联能 力,同比文本标注对于数据融合要求更高。 其次,语料规模需求同样呈现量级扩张。根据行业报 告分析,多模态(视频)语料在智能监控领域的渗 透 率从 2023 年 18% 提 升至 2025 年 35%,例 如 特 斯 拉自动驾驶系统当前需要超 20 万小时多模态 场景数据进行模型能力提升。此外,具身智能模型 更需要空间动态语料,比如物体运动轨迹、各类参 数信息等。 据求思咨询报告分析,全球 AI 语料市场 规模预计在 2025 年突破 109 亿元。并且数据合成 成为当前突破 现在数据规模的主流路径,预计 2025 年合成数据在 AI 训练中占比将达 40%,例如工业数字孪生场景中, 合成图像替代率从 30% 升至 65%。 同时语料数据的内容可信度保障面临更高要求。多 模态语料的质检需建立跨模态的数据质量检验流程 机 “ ” 制,避免图文内容不一致从而导致模型 越训越差 , 造成模型认知偏差。再例如,具身智能模型将与物 理世界进行高度交互,语料内容中需要包含安全边 界参数(如机械臂操作力度阈值),确保与现实环 境的适配。 2. 从通用模型到行业大模型的语料深化 随着通用模型发展从试点到落地,具有行业属性的行 业大模型也逐步成为模型能力提升的重要转变,意 味着 AI 技术从广度覆盖转向行业深度赋能,而行业 大模型的性能则更是高度依赖领域的高质量语料。 学习真实世界特征 , 通用大模 型 分析数据特征 , 理解真实世界 赋能行业智能应用 , 行业大模 型 减少繁琐低价值劳动, 助力行业智能化 大模型 2023 通用 2B 场景 文档摘要 公开 行业通用数据 图 3 通用大模型到行业大模型的数据需求演进 场景化 2B 应用 公文生成 金融 制造 行业知识结合 政务数据 金融数据 指导数据 工勘记录 行业生产核心数据 10 政务 智能客服 智能风控 知识助手 缺陷检测 智能问 答 热线工 单 政府发文 产品文档 操作指导 巡检记录 ● 行业术 语库编程语 言规范 政策法规 库 网站制 作 模型能力开 互联 网 社交场 编程场 行业规 行业准 办公场 代码 文档 ● 公 用 comm on cra 模型基础能 智能对 话 现象级 语料质量:随着通用语料的逐步耗尽 , 在高质量行业 数据上的加工与使用成为各模型能力差距的主要原 因。例如上海规划资源专项语料库,通过归集 1200 份技术标准、5.7 “ 万份城建档案,建立 专家标注 +AI ” 校验 双重标注模式,可以实现地图信息的精准规划, 从而代替通用语料仅能提供政策咨询渠道等简单能 “ ” 力,成为垂类模型的 高配置语料库 。 内容可信:语料构建需要兼顾内容合规与机密性。尤 其在医疗行业,领域语料常涉及大量个人隐私信息, 医疗记录,企业信息等敏感内容,因此对于数据内容 的隐私保护,催生出隐私计算技术的逐步成熟与落地。 比如每日互动公司推出的 GAI Station 智能工作站, “ 采用 本地小模型 + ” 云端大模型 架构,通过将企业内法 务、财务等数据进行向量化处理,并结合联邦学习 技术,使得跨机构数据协同合作的数据泄露风险降 至 0.001% 以下。 2.2 人工智能大模型语料主要挑战 当前随着模型尺寸及模型场景的不断发展,语料的端 到端建设与工程化能力也面临着挑战,具体展开为 公开数据即将耗尽、领域数据流通困难、多模态对 齐与合规性制约等三大维度,使得高质量数据资源 成为模型能力提升的关键瓶颈。 图 4 人工智能大模型语料面临的关键挑战 公开数据即将耗尽:随着智能化进程逐步推进,不同 语种的语料资源质量与规模差异巨大,在全球数据 训练集中,英语等主流语言拥有海量高质量数据, 中文 语料数据的占比仅为 1.3%。Epoch 研究表明, 基于 当前语料消耗速度,预计将在 2026 年,现有的 公开高质量语言数据即将耗尽。 领域数据流通困难:近年来,在数据流通、数据共享、 “ 数据开放已有很多先进探索,但依然存在 主动找 ” 数、被动供数 ,高质量领域数据的流通性问题仍然没 有得到解决。虽然私域数据的专业性、可靠性、准 确度可与行业场景更好适配,但专业领域知识积累 门槛高,周期长,数据隐私要求高,所以领域知识 的共享在实际落地上还存在难度。 多模数据对齐与合规制约:不仅多模态数据的对齐与 融合、数据合规流通等受制于技术的发展,在数据 产权确权、数据资产入表等方面也需要通过政策法 规制定数据加工的标准与规范。 11 多模数据对齐与合规制 约 数据融合对齐、数据产权确 领域数据流通困 难 “ ” 主动找数、被动供数 , 公开数据即将耗尽 预计 2026 年, 现有公开高 质量语言数据即将耗 0 1 0 1 0 1 0 0 1 1 0 0 0 0 0 0 1 0 1 0 0 1 1 0 1 3、数据空间与 AI 协同发展的关键挑战 在当前数智化转型加速的时代,数据与人工智能的协同创新成为推动各行业数字化、智能化升级的引擎。然而, 这 “ ” 一融合过程中面临多重挑战, 数据壁垒、隐私合规、技术异构性、信任机制不透明 成为数据 驱动 AI 创新的关键 瓶颈,Data+AI “ ” 协同创新存在 三不可 的核心挑战。 3.1 挑战一、数据 AI 不可见 图 5 数据湖仓的架构演进发展历程 在过去的数十年时间内,各行业客户建设了大量的 数据库、数据仓库、大数据等系统,形成了非常复 杂的数据架构和庞大的数据资源体系。但由于上一阶 段的数据建设通常是围绕交易、分析等特定目标建设 的系统,从而逐步形成了大量的数据烟囱( Data Silos)架构,数据的协同共享面临诸多断点和壁垒, 无法满足 AI 大模型时代对全量用数、高质量供数等 新要求,因 此 Data For AI 用数核心诉求是让全量数 “ 据 AI 看得 ” 见 。 · 多形态异构技术体系,跨系统数据 AI 不可见 当前模型训练 / 推理数据涉及多主体、多云、多业务 系统间的数据集成与数据汇聚,由于多主体大数据 平台建设采用异构技术平台、不同元数据管理、独 立数据接口标准,导致跨主体跨域间数据
下载文档到本地,方便使用
共 55 页, 还有 14 页可预览, 继续阅读
文档评分
请文明评论,理性发言.