pdf文档 2024全球计算产业应用案例汇编(GMVPS) VIP文档

8.88 MB 141 页 48 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
2024年度 全球计算产业 应用案例汇编(GMVPS) Case Collection of 2024 Global Most Valuable Practice Solutions 全球计算联盟编制 Foreword 序 言 当时代的列车全速驶入数字化的轨道,计算产业正以前所未有的速度深刻改变着世界的运行方式与 发展格局。从现代化都市高效运转的智能交通体系,到充满活力的智慧城市建设实践;从高深莫测的科 研攻坚前沿,到与每个人息息相关的医疗健康保障领域,计算力如同无处不在的智慧引擎,驱动着创新 与发展的巨轮滚滚向前。 为全方位呈现计算产业年度发展风貌,全球计算联盟(GCC)于今年9月重磅发起“2024年度全球计 算产业应用案例汇编征集2024 Global Most Valuable Practice Solutions(GMVPS)”活动,得到了飞腾 开发者平台、极术社区、鲲鹏创新中心、昇腾社区的鼎力支持。 案例征集锚定三大核心方向,深度覆盖产业生态关键构建要素——年度技术创新类、智慧行业应用 类、可持续发展类,共收集到来自会员单位及产业伙伴累计近50份案例的积极申报。经由全球计算联 盟理事会以及来自通信、政务、制造业、分析机构、媒体等领域权威专家组成的编委会编审,最终集结 成册。 本册《2024年度全球计算产业应用案例汇编》汇集年度众多极具代表性的应用实例而成。这些实例 融合了云计算、边缘计算、机密计算等一系列计算技术,展现了在智慧金融、智能制造、智慧交通等多 个关键行业的开创性实践和绿色可持续发展的应用经验,为产业提供极具价值的参考与借鉴。 随着技术的不断进步和创新的持续涌现,计算产业也势必将在更多领域发挥关键作用。未来,全球 计算联盟GCC将持续搭建全球产业应用案例展示与交流的平台,让我们以案例汇编为指引,不断探索计 算产业的无限可能,共同推动全球计算产业的繁荣发展! 全球计算联盟 2024年12月 ContentS 目 录 年度技术创新类(前沿技术突破) |中国电信股份有限公司研究院|分布式智算中心无损网络方案…………………………………………… 1 |中国科学院计算机网络信息中心|面向国产超算系统跨平台可移植的并行框架软件方案……………… 7 |中国科学院沈阳自动化研究所|基于AI Agent的工业物联网关方案 …………………………………… 10 |中移在线服务有限公司|中移在线基于云原生化的数据仓库平台方案………………………………… 17 |北京万里开源软件有限公司|高性能数据库全场景适配与优化解决方案……………………………… 21 |四川华鲲振宇智能科技有限公司|训推一体AI服务器方案 ……………………………………………… 25 |合肥大唐存储科技有限公司|高安全超聚合存储控制器芯片及应用方案……………………………… 29 |河南昆仑技术有限公司|国家管网机器视觉AI中台技术突破方案 ……………………………………… 33 |南湖实验室|基于机密计算的数据可信流通平台方案…………………………………………………… 37 智慧行业应用类 ● 智慧通信 |中国电信集团有限公司|机房智慧节能系统方案………………………………………………………… 42 |北京东方通网信科技有限公司|基于AI大模型技术的多维化数据安全综合管控平台方案 …………… 47 |北京海量数据技术股份有限公司|运营商商城App数据库自主创新方案 ……………………………… 52 |恒安嘉新(北京)科技股份公司|创新安全采集分析平台方案………………………………………… 56 |深圳天源迪科信息技术股份有限公司|基于鲲鹏原生开发的5G融合计费系统方案 ………………… 60 ● 智慧金融 |云宏信息科技股份有限公司|基于双Kit深度优化的WinSphere虚拟化解决方案 …………………… 63 |北京数字认证股份有限公司|基于“鲲密”一体机的数据安全传输应用方案………………………… 70 (按牵头单位名称笔画顺序排序) |深圳市长亮科技股份有限公司|鲲鹏原生开发APStack技术平台方案 ………………………………… 74 ● 智慧政务 |北京市太极华青信息系统有限公司|预算管理一体化系统V2.0方案 …………………………………… 79 |南威软件股份有限公司|基于大模型赋能的城市运行管理服务平台方案……………………………… 83 |星环信息科技(上海)股份有限公司|基于鲲鹏原生的大数据平台创新方案………………………… 88 ● 智能制造 |北京云锦汇智信息技术有限公司|数智化生产管控系统解决方案……………………………………… 91 |深圳市华灏机电有限公司|AI视觉部署方案 ……………………………………………………………… 95 ● 智慧能源 |北明软件有限公司|AI智能供热:基于先进技术融合的创新解决方案 ………………………………… 99 |国能信控技术股份有限公司|新能源计算平台:鲲鹏原生驱动的智能能源创新方案………………… 103 ● 智慧城市 |中国联合网络通信有限公司网络运营事业部|基于5G边缘计算“边 - 端”一体化运维提升方案 …… 107 |中国铁塔股份有限公司|分布式边缘计算创新应用方案………………………………………………… 112 ● 智慧交通 |麒麟软件有限公司|深圳地铁四期AFC行业智慧化升级方案 …………………………………………… 119 ● 智慧医疗 |大连红旗自由软件有限公司|基于立马昆仑大模型的疾病预测及医疗服务智慧升级方案…………… 123 绿色可持续发展类(绿色节能技术) |北京神州数码云科信息技术有限公司|新一代绿色融合智算中心解决方案…………………………… 128 |苏州华旃航天电器有限公司|应用于数据中心液冷散热系统的流体连接器方案……………………… 131 年度技术创新类 (前沿技术突破) 1 年度技术创新类(前沿技术突破) 案例基本信息 Basic case information 案例简介 case summary 随着人工智能的浪潮来袭,以大模型为代表的智算中心解决方案逐步深入千行百业,算力需求日益 攀升,智算基础设施的重要性进一步凸显,但同时也面临组网、通信、能耗、成本等多重挑战。为解决 智算中心单点算力规模建设受限的问题,中国电信提出“以网强算”的技术路线,通过将IP技术与光传输 技术的协同创新,将相距百公里的多个智算中心连成一个更大规模的智算集群,补齐单点算力规模不足 的差距。针对跨智算中心构建超大规模智算集群过程中遇到的问题和挑战,中国电信成立攻关项目组, 聚焦研究长距无损智算网络技术。 本方案依托中国电信的全光运力网,基于800G C+L技术、异构网络集合通信优化技术、全局负载 均衡技术等,为1024卡规模的分布式集群提供大容量带宽,实现120公里千亿参数大模型分布式训练, 性能达到集中训练的95%以上,证实了分布式无损智算网技术方向的可行性,为智算互联构建坚实技术 底座。 案例亮点 case HigHligHts 1 本方案可实现跨百公里数据中心协同训练,为跨地域、跨层级、跨主体高可靠的算力协同调度奠 定基础。 2 根据实时网络状况动态调整流控策略,实现流量峰值速率的流级别的独立控制和精准反压,实现 网络无损传输。 3 提出分钟级波长动态拆建解决方案来实现算与网的协同分时复用,有效提升网络资源利用率;采 用WSON重路由恢复技术,快速地定位和解决问题,提高故障定位的准确率。 案 例 名 称:分布式智算中心无损网络方案 牵头申报单位:中国电信股份有限公司研究院 联合申报单位:中国电信股份有限公司北京分公司 华为技术有限公司 2 年度技术创新类(前沿技术突破) 案例详细信息 case Details 1. 技术创新突破概述 本方案积极探索ROCE(RDMA over Converged Ethernet,基于融合以太网的远程直接内存访问技 术)组网的全局负载均衡及拥塞控制协议的优化创新,融合800G、C+L、WSON(Wavelength Switched Optical Network,波长交换光网络)、空芯光纤、精准流控等多项前沿技术,构建了百T大带宽、毫秒低 时延、高可靠能力领先全光底座,实现智算中心的高速互联,实现超地理空间的环京算力资源统筹和调 度。在技术方面主要有3项创新突破。 (1)异构网络集合通信优化技术 在长距拉远场景下,网络不再同构,跨长距的GPU通信时延要显著高于DC内的GPU通信时延,因此 传统算法将不再最优。下表总结了Ring算法和HD算法在拉远场景下的跨长距通信次数和通信量。其中S 是集合通信数据量,N是参与集合通信的GPU数量。 表1 典型集合通信算法跨长距性能评估 集合通信算法 跨长距通信次数 跨长距通信数据量 Ring ~2N ~2S Halving Doubling 2log2N NS 理想情况下跨长距只需要进行一次通信,并且传输的数据量为S即可。基于该思路,本项目设计出针 对长距异构组网的集合通信算法框架,如图1所示。新算法具体步骤如下: (1)将拉远DC当做两个独立的子系统,在每个DC内先进行集合通信操作,集合通信算法可选用 Ring或者HD。 (2)DC内同步后,在每个DC中选取一个或者多个代表主机,然后对应的代表主机之间同步数据。 例如选取K个代表主机(K < N/2),则每个主机需传输S/K的数据。这一步的通信在网络上就是K个点对点 双向通信。 (3)每个代表主机接收到对方的数据后,进行本地加和,再将加和后的结果在本DC内广播/All Gather分发出去。实现了两个DC之间的AllReduce操作。在每次执行集合通信时,根据拓扑图得到每个源 端和目的端的距离,随之运行搜索算法,找到效率最高的集合通信方式。 3 年度技术创新类(前沿技术突破) 图1 跨长距集合通信算法架构 (2)网络级负载均衡技术 智算业务流具有同步性高、流量大、周期性出现等特点。同一时刻,网络里每条等价路径上都有流 经过,传统基于ECMP哈希的负载均衡技术无法做到所有路径的完美均衡。 本方案采用网络级负载均衡技术可以通过统一规划整网流量,如图2所示,让所有路径之间完美均 衡无冲突,避免拥塞丢包。具体来说,首先网络设备会收集业务的流量信息,并将其发给网络控制器。 控制器根据拓扑、流量信息,运行全局选路算法,给每条流都选择合适的路径,做到整网完美均衡无拥 塞。最后,控制器将路径信息再下发给网络设备,由网络设备作出路径调节。 图2 网络级负载均衡技术 (3)高性能WSON技术 传统的WSON重路由时间为秒级到分钟级,现网测试中容易发生概率性训练中断事件,影响智算业 务。因此,需要进一步提升WSON的重路由能力,实现确定性的光层恢复能力。 针对智算百公里级互联场景,本方案利用WSON 50ms技术可以在提供相同保护能力的情况下降低对资 源的消耗。其关键技术包括转控分离机制、资源共享选路算法、高速报文转发技术、WSS快速切波技术等。 4 年度技术创新类(前沿技术突破) 2. 创新技术实际应用效果 本项目利用OTN网络零丢包、低时延、大带宽的承载特点,通过全局负载均衡、长距无损流控等技 术,使RDMA传输协议应用于广域网。目前,方案已在现网开展了百公里拉远对大模型训练的影响及稳定 性测试,并在全国率先完成基于高带宽、低时延的全光800G超高带宽传输。项目组从多拓扑、多模型、多 故障等维度积极开展主流方案摸底测试,并对仿真验证结果进行分析,积极探索优化创新。 项目组先后开展了现网机房的64卡以及1024卡组网验证。一阶段在京津冀智算机房进行 80km/120km绕行拉远验证,模拟了两个数据中心组网,组网拓扑如图3所示。二阶段在武清、瀛海、永 丰三机房开展百公里分布式大模型训练,验证当前分布式智算中心无损网络解决方案在真实业务场景下 的效果,并探索分布式智算集群对大模型训练性能影响的关键因素,组网拓扑如图4所示。在前期百卡、 百公里拉远验证基础上,三阶段在京津冀智算机房开展了千亿参数、千卡规模120km两点拉远验证,组 网拓扑如图5所示,本阶段探索长距链路带宽收敛情况下模型训练的性能,目标是推动无损智算互联网络 的技术进一步突破。系列试验均验证了在不同拓扑中分布式智算中心无损网络方案的有效性和稳定性。 此外,模拟了多种试验中可能出现的故障情况,以验证方案在面对线路路障、服务器端口故障及其他异 常情况时的韧性和恢复能力。 图3 京津冀智算机房80km/120km绕行拉远验证组网 图4 武清、瀛海、永丰三地IDC机房拉远验证组网 5 年度技术创新类(前沿技术突破) 图5 京津冀智算机房千卡120km绕行拉远验证组网 模型选取方面,在百卡组网规模下开展了LLAMA2-7B、LLAMA2-13B、LLAMA2-34B、中国电信启明 网络大模型-14B、Bloom-7B、Baichuan2-13B四类百亿参数模型的分布训练验证;在千卡组网规模下进 行了Qwen-70B、GPT-175B等模型的验证测试。通过多模型验证可以确保智算拉远方案能适应不同硬件 和软件配置,提高方案的通用性和适应性。 根据现网验证部署的数据显示,在训练效率方面,在不同组网拓扑下不同模型跨机房训练均可达同 机房训练性能的95%以上,证明分布式智算中心无损网络的可行性;网络稳定性方面,分布式智算中心 无损网络可支持大模型一轮5000次迭代训练任务,均完成超12小时、约80w条样本数据的稳定性测试, 具备支持大模型长期稳定训练的能力。充分验证了分布式智算中心无损网络的可行性及可靠性。 3. 未来发展潜力及对行业、产业的积极影响 本方案研发的技术带动400G全光运力全产业发展,牵引全光网迈入B400G时代,在材料、工艺、算 法上均实现了全国产、全自研突破E2E国产化。同时,分布式智算中心无损网络测试验证及相关创新研究 将助力多方小规模智算中心并联成虚拟的大型智算中心节点,实现区域内智算中心协同计算模式,解决 临时性的大规模算力需求,推动端网算协同创新,解决供给与需求区域发展不平衡问题,促进京津冀战 略协同,快速推进智算中心建设,夯实新一代算力底座,为区域算力互联网的建设打下坚实基础。 未来,该技术将进一步推进千行百业的数字化和智能化转型进程。跨区域的智算协同将为众多企业 提供高效、稳定、安全的智算服务,使用户能够在同等算力下支持企业的数字化转型和智能化升级。政 府和央企也可以积极参与智算资源池的建设和运营,推动整个产业链的发展。 6 年度技术创新类(前沿技术突破) 申报单位简介 introDuction of tHe applicant unit 中国电信股份有限公司研究院,作为中国电信集团公司为适应集团发展需要而组建的重要科研机构, 其主要职能涵盖了电信技术发展趋势与战略的研究、技术发展政策的制定、网络与技术业务发展的规划, 以及新技术和新设备的入网测试评估等。此外,研究院还承担着决策支持、软科学研究和发展研究的任 务,并致力于应用软件研究与系统集成、电信新业务和增值业务的开发等工作。成立至今,研究院已多次 获国家科学技术进步奖一等奖、二等奖,中国通信学会科学技术一等奖项。在本项目中,研究院联合北京 分公司成立项目攻关组,聚焦研究长距无损智算网络技术,成功解决了百公里无损智算网难题。 编委专家评语 该方案通过融合ROCE、800G、C+L、WSON、空芯光纤、精准流控等前沿技术,实现了百 T大带宽、毫秒级时延的全光底座,优化了异构网络通信、负载均衡和高性能WSON技术。根据 所提供的现网测试显示,该技术在多拓扑、多模型下均表现出高效稳定,能支持大规模智算任 务。未来可推动端网算协同创新,促进京津冀战略协同,快速推进智算中心建设,为千行百业 的数字化和智能化转型提供高效、稳定的算力服务,推动整个产业链的发展。 comments from eDitorial BoarD experts 7 年度技术创新类(前沿技术突破) 案例基本信息 Basic case information 案 例 名 称:面向国产超算系统跨平台可移植的并行框架软件方案 牵头申报单位:中国科学院计算机网络信息中心 案例简介 case summary 目前国产超算平台架构多样,不同国产超算平台编程模型不同,给应用程序在多平台上的实现和调 优工作带来巨大的挑战。本案例面向一套源码跨平台可移植的需求,开发了一种面向国产超算平台的统 一编程框架软件,以解决不同超算平台之间软件性能可移植问题,提高国产超算平台的软件开发效率和 应用性能。框架软件采用组件化设计和统一编程接口,研究不同平台的统一内存管理策略,支持不同架 构的国产超算平台,实现高效的并行计算和优化编程。通过提供丰富的工具和库,简化开发和调试过 程,同时支持灵活的配置选项和定制化功能,使开发者能够个性化选择和优化策略。为国产超算平台的 软件开发和应用提供一个通用且可靠的工具,助力超算领域的生态发展。 案例亮点 case HigHligHts 1 一套源码可在不同架构的超算系统下运行。 2 针对不同架构的并行特性和内存结构优化,性能和原生语言持平。 3 对并行编程细节的高度抽象,降低并行编程难度及代码量。 案例详细信息 case Details 1. 技术创新突破概述 本案例在软件技术方面的创新性主要表现在开发了一套面向国产超级计算系统的跨平台可移植并行 框架软件。该框架软件通过拓展开源性能可移植编程框架Kokkos [1],增加了对国产超算架构如申威众核 8 年度技术创新类(前沿技术突破) 处理器及其编程模型的支持,同时针对对国产类GPU(Graphics Processing Unit)、华为鲲鹏等架构 的硬件特性进行优化。使C++中仿函数(Functor) 、匿名函数(Lambda expression)、模板元编程 (Template Metaprogramming)等功能特性开发统一内存管理和统一编程接口。区别于以往的转码机 制,实现由源码直接编译生成能运行在不同国产超级计算系统上的二进制可执行文件。 框架软件采用组件化开发,将并行编程中节点内、节点间的诸多细节进行封装和抽象,形成可复用 的组件库,典型功能有:结合不同硬件平台上异构硬件特性对异构设备主备端内存管理的实现进行优 化,提供主备数据批量自动处理操作接口,减少用户对主备端内存空间管理的工作量;研究和实现通信 算法的统一接口或关键字,隐藏节点间通信的内部实现细节,简化领域应用跨平台协同的复杂性。这不 仅提升了代码的可维护性和可扩展性,也显著加快了应用程序的开发速度。 [1] Edwards H C, Trott C R, Sunderland D. Kokkos: Enabling manycore performance portab
下载文档到本地,方便使用
共 141 页, 还有 2 页可预览, 继续阅读
文档评分
请文明评论,理性发言.