全球计算联盟GCC:2025年异构算力协同白皮书......................................................................................25 5.2 主机级:超节点算力异构...............................................................................................25 国产芯片为例: (1)昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色,搭建开放生态,形 成“芯片一框架一集群一应用”的四级闭环,已支持建造多个万卡级集群,2025 年推出 384 卡超节点新形态,最大算力可达 300 PFLOPS,48 TB 高速内存,配备创新的高速互联总线, 实现 384 卡一台计算机运行,大幅提升大模型训推效率。 (2)昆仑芯三代 XPU-R,自研 XPU-Link 细化调度。针对异构 算力计算能力差距,面向大模型训练场景构建分布式并行策略组合、业务感知的非均质拆分 等能力,实现跨厂商算力的弹性按需调度;面向大模型推理场景,支持单机多卡异构分布式 推理和跨节点分布式异构推理等多种形式,适配模型推理不同阶段算力需求特性,精细化调 度实现异构算力降本增效;构建大模型训练和推理混合部署的调度底座,实现训推任务的动 态、实时切换,化解算力潮汐矛盾,完成从集群到设备级的异构算力精细化调度,实现异构10 积分 | 31 页 | 1.21 MB | 3 天前3
湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书已成为当 前智算网络发展重要挑战。 智算中心网络如图 1-1 所示,可按通信范围分为机内互联 (Intra-Node)与机外互联(Inter-Node)两类: 机内互联:主要用于单服务器或单节点内的多 GPU 连接。典型 技术包括 PCIe 与 NVLink,其中最新一代 NVLink[4] 5.0 点对点带宽 高达 1800 GB/s,并通过 NVLink Switch 实现多 GPU 多层交换机实现大规模互联,支撑分布式训练中的全互联需求。 图 1-1 智算中心网络与网络协议栈 无论采用机内互联还是采用机外互联,都要采用电交换芯片来做 网络流量交换。然而,随着模型规模和节点数的增加,电交换面临带 宽、延迟和能效的瓶颈。 1.3 光电协同交换网络的兴起 在交换技术方面,电交换技术具有成熟性、协议兼容性和灵活的 控制能力,基于以太网(如 RoCEv2、InfiniBand)传输协议,支持复 其完整训练任务需部署约 25,000 张 H100 GPU 卡。假设每台服务器 需与 Top-of-Rack(ToR)交换机建立至少 2 条 400G 上行链路,并在 Leaf 层与 Spine 层交换节点之间形成全互联结构,则光是 Leaf 层汇 聚这些服务器所需的交换芯片就需提供数千个高带宽端口。进一步向 上扩展 Leaf 层与 Spine 层的连接关系时,每增加一层交换所需的端口 数将指数20 积分 | 53 页 | 1.71 MB | 3 天前3
2025年云智算光互连发展报告-中国移动........... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.................................. 16 云智算光互连发展报告 4. 移动云在智算场景下的光互连应用展望......................... 速 向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在 数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进, 光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下 的优选方案。随着 LPO、CPO 等技术引入数据中心架构,光电协同设 计已成为芯片集成的核心技术需求,芯片-封装-系统级的多维协同 优化成为新的挑战。与此同时,随着全光交换技术的逐步小规模应 间使用 OCS 进行互连,如图 8 所示。在该组网下,通 过 OCS 灵活调整拓扑的能力,隔离故障节点提升可用性,集群可减 少 50 倍停机时间,并通过按需定制拓扑,提升 30%的吞吐量。除此 之外,OCS 在网络成本和网络功耗都有明显收益。 云智算光互连发展报告 图 8 谷歌 TPU 的超节点架构 国内主要由华为主导,目前推出了 DC-OXC 解决方案,其通过上 层的算网协同模块,对底层链路进行流量调度。通过在智算集群等20 积分 | 32 页 | 2.80 MB | 15 天前3
中国联通数字化监控平台稳定性保障工具落地实践故障处于被动防御,救火,运维大数据未被合理价值挖掘 工具重复:工具按烟囱式建设,能力分散 能力割裂:运维工具能力割裂不成体系 数据孤岛:应用、数据库、中间件、云平台、 基础设施各管自身 维护对象:系统节点、微服务数量几何级数增加 调用关系:从简单对应到极其复杂,人力维护无法胜任 数据分片、异地存储,传统维护模式难以为继 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已 云平台维护方自定义 Promethues exporter 网络拓扑同步上报 卡顿、崩溃、错误等 调用量、响应时间、异常量等 应用调用trace 方法调用明细 云平台健康度、集群节点、pod容 器指标 网关:KONG、LB、Nginx等 中间件:Kafka、MQ、Zookeeper 等 数据库:MySQL、Clickhouse、 Elasticsearch等 agent 系统C agent Flink kafka 告警计算 指标聚合 明细分析 Nacos Clickhouse 存储集群 跨数据中心链路自动串连 业务报文查询 调度转发节点 存储集群 查询 业务配置打标 应用根因定位 应用性能分析 链路调用清单明细,方法级分析 链路自动拓扑 全层级告警墙 应用实例、主机串联 GOPS 全球运维大会 2023 · 上海站10 积分 | 24 页 | 9.74 MB | 4 月前3
中国联通数字化监控平台稳定性保障工具落地实践端到端稳定性保障体系缺失, 自动化、智能化故障处理能力不足 n 故障处理过多依赖专家经验,故障没有沉淀为有效的资产 n 故障处于被动防御,救火,运维大数据未被合理价值挖掘 分布式架构挑战 n 维护对象: 系统节点、微服务数量几何级数增加 n 调用关系:从简单对应到极其复杂,人力维护无法胜任 n 数据分片、异地存储,传统维护模式难以为继 运维生态挑战 n 工具重复: 工具按烟囱式建设,能力分散 n 能力割裂:运维工具能力割裂不成体系 核心业务场景、核心业务环节、核 心业务链路拓扑 白屏、慢响应、弹窗日志等 卡顿、崩溃、错误等 调用量、响应时间、异常量等 应用调用 trace 方法调用明细 云平台健康度、集群节点、 pod 容 器指标 网 关 : KONG 、 LB 、 Nginx 等 中 间 件 : Kafka 、 MQ 、 Zookeeper 等 数 据 库 : MySQL 、 Clickhouse 跨数据中心链路自动串连 业务配 置 打标 存储集群 实例 id 、容 器 id 网络设备 主机 ip 、机 房 云平台 链路调用清单明细,方法级分析 告警收敛 根因定位 存储集群 调度转发节点 链路自动拓扑 告警配 置 告警计算 应用性能分析 业务、应用维度链路展现 kafka Redis 告警计算 指标聚合 应用实例、主机 串 联 明细分析 agent agent20 积分 | 24 页 | 2.00 MB | 4 月前3
面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前 言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法 迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战: 型性能指标已十分困难,需构建 具备高带宽、低延迟特征的GPU卡间互连技术体系,以扩大节点规模, 大幅降低通信时间占比,最终实现集群算效的显著提升。 图 1-2 算力随着卡数规模扩大难以线性扩展 同时,全球智算中心规模触达十万卡级别,智算集群架构正经历 一场根本性变革,从传统单机八卡向超节点演变。超节点并非简单的 硬件堆叠,是一种通过极致性能的高速互连技术,将数十乃至上千颗 GPU芯片 飞跃。 1.2. 大规模智算集群呼唤“光进电退”技术 目前,超节点智算集群展现出三大技术特性,一是互连性能高, GPU之间具有超低时延超高带宽(百纳秒级,TB/s级)且无收敛的互连 能力;二是算力密度高,由单个或多个机柜构成,包含32个以上甚至 到千卡的GPU数量,不断逼近电互连物理部署极限;三是能效PUE高, 超节点单机柜功率可达40kW以上,采用液冷为主、风冷为辅的散热方 案,配10 积分 | 52 页 | 5.24 MB | 9 小时前3
广西区块链产业发展白皮书(2025年)ZK-Rollups 技术(零知识证明技术)、模块化架构及行业标准的 广西壮族自治区信息中心(广西壮族自治区大数据研究院) 广西区块链发展白皮书(2025 年) — 4 — 推进,不同链之间有效实现轻节点验证和跨链状态同步,将跨链 结算时间压缩至毫秒级,大幅提升互操作性。在安全可靠方面, 抗量子技术通过升级加密算法、优化密钥管理及增强异构链兼容 性,抗量子签名算法,通过桥接器生成目标链密钥对,为跨链生 张态势,但监管协调、网络安全等挑战仍存在。在工业互联网建 设方面,星火·链网作为新型数字基础设施的产业生态价值正在 不断增强,截至 2025 年 6 月,“星火·链网”超级节点基础设施建 设已形成规模化应用,集聚效应不断释放,已在全国 11 个城市完 成超级节点布局,骨干节点覆盖超过 60 个城市,探索形成了数字 资产、产业金融、司法存证等一批典型应用场景。在可信数据空 间建设方面,运用区块链技术解决互信互认问题,进一步释放数 础设施,建设“主链-子链”多级架构,提供公共存证、数据溯源、 跨链协同服务等公共服务,支撑数字政府、智慧农业、供应链金 融、电子证照等应用创新。该平台目前已完成信创适配,开发数 据要素服务、隐私计算等平台,可实现多节点间的协同计算和数 据隐私保护,提升安全可控性,聚焦可信数据空间构建,开展可 信管控技术攻关,推动数据要素畅通流动和数据要素价值释放, 逐步形成支撑广西数字经济和数字社会发展的可信新型数字基础10 积分 | 35 页 | 594.04 KB | 3 天前3
国有企业“十五五”规划编制要点础设施、氢能储能等新赛道,明确各板块发展方向。 投资计分牌评估 用“投、建、产、研”四象限评估重大工程项目的 ROI 与战略耦合度,确保投资精准有效。 里程碑刻度设定 列出年度投产节点、投运节点、达产节点,标注关键 依赖资源,保障项目有序推进。 01 02 03 产业布局与投资安排 01 组织保障强化 董事会战略委员会 + 党委研究前置,规 划办设在“战略发展 部”,形成高效协同 个月董事会审议通过,确 保规划在企业内部达成共识。 正式报送国资委 T- 0 (月 6 月 30 日)正式报 送国资委,留出 2- 3 个月与 国资委沟通迭代,避免“最后 一公里”卡壳。 时间节点规划 工具箱:让规划更“长牙带电” Part 05 战略性突破用 OKR ,运营性 指标用 KPI ,确保规划既有战 略高度又具可操作性。 战略性与运营性指标 防止指标混用,明确 OKR20 积分 | 31 页 | 20.26 MB | 9 小时前3
2025年中国-上海合作组织数字技术工具箱工具一、Coremail XT安全电子邮件系统V6.0 Coremail 邮件系统登录页面 1 Coremail XT安全电子邮件系统V6.0聚焦全球化通信需求,以分布式架构于全球多地数据中心部署节点,通过智 能路由与负载均衡技术,保障跨国邮件高速稳定传输。采用国际通用的SSL/TLS加密、数字证书等安全技术,筑牢邮 件安全防线,同时支持上合组织成员国及全球主流语言,实现界面与内容的智能适配。 列实现普通交易的跨链互操作。当其他市场主体作为联盟方接入当 前区块链时,该系统通过和企业CA系统平滑集成,为区块链网络提供可靠的接入安全认证,新接入方只需要启动一个 节点并连接网络里的某一节点接入即可,对于需要使用区块链节点的业务系统,提供了原生SDK、JSON RPC和 WebSocket等多种调用方式,有效降低了市场主体接入区块链的难度,有利于人保联盟链的推广。 经济效益: 2022 再保 人)数量占到四分之三,分保费交易金额超过150亿人民币。 社会效益: 共建全球再保险生态联盟,截至目前基于区块链的智能再保险交易平台已在三个法人机构分别部署区块链节点, 初步形成人保联盟链,且支持更多法人主节点的扩展,后续逐步推广到行业联盟,吸引更多保险实体公司加入人保联 盟链,通过跨链融合技术接入更多的联盟链/私有链,实现再保行业共建、共治、共享的再保险行业生态联盟。 执行单位简介20 积分 | 113 页 | 11.44 MB | 4 月前3
华为:2025践行主机现代化:主机上云技术白皮书期长,灵活性有限;而云计算技术则以横向扩展 (Scale-out)为核心,通过增加通用服务器节点实现资源池化与弹性伸缩,可在分钟级甚至秒级完成资源扩 容,能够快速应对业务负载波动,并支持跨地域分布式部署,更适合应对动态、快速变化的大规模业务需求, 例如 Kubernetes 集群可轻松支持上万个节点。 (3) 新兴技术适配能力薄弱 在数字化转型中,企业业务敏捷转型需融合云计算、大数据、AI、区块链等技术,但主机技术栈对此支持 应速度增加新 Pod 副本承接流量,并在峰值过后自动缩容,释放资源,虚拟机、容器结合负载均衡服务 提供弹性伸缩能力。 ④服务高可用:依靠多实例部署和负载均衡机制,结合健康检查功能,及时发现并隔离故障节点,确保服 务不间断运行。 关键机制包括: ① 配置自动化:网络配置不再依赖传统的命令行界面(CLI),而是采用云服务 RESTful(如 Kubernetes 的 CNI、NetworkPolicy 控制平面负责计算并自动下发配置,以确保数据平面达 到并保持所需状态。网络配置不仅能够基线化、可审计,还要能自动化部署、可对账。 ② 灵活可扩展:控制平面应具备水平扩展能力,提供虚拟机节点 / 裸机节点 VPC 和 HPC/AI 高性能平面 的统一管理,并承载容器服务以管理数万节点和数十万 Pod 的超大规模集群。在多云及边缘计算场景, 控制面需支持跨域编排,有效应对 CIDR 重叠和 QoS 保障等挑战。提供企业级多集群、多云网络管理能力,20 积分 | 63 页 | 32.07 MB | 3 天前3
共 64 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7
