节点 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

全球计算联盟GCC：2025年异构算力协同白皮书

......................................................................................25 5.2 主机级：超节点算力异构...............................................................................................25 国产芯片为例：（1）昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色，搭建开放生态，形成“芯片一框架一集群一应用”的四级闭环，已支持建造多个万卡级集群，2025 年推出 384 卡超节点新形态，最大算力可达 300 PFLOPS，48 TB 高速内存，配备创新的高速互联总线，实现 384 卡一台计算机运行，大幅提升大模型训推效率。（2）昆仑芯三代 XPU-R，自研 XPU-Link 细化调度。针对异构算力计算能力差距，面向大模型训练场景构建分布式并行策略组合、业务感知的非均质拆分等能力，实现跨厂商算力的弹性按需调度；面向大模型推理场景，支持单机多卡异构分布式推理和跨节点分布式异构推理等多种形式，适配模型推理不同阶段算力需求特性，精细化调度实现异构算力降本增效；构建大模型训练和推理混合部署的调度底座，实现训推任务的动态、实时切换，化解算力潮汐矛盾，完成从集群到设备级的异构算力精细化调度，实现异构

10 积分 | 31 页 | 1.21 MB | 3 天前
3
湖南大学：2025年智算中心光电协同交换网络全栈技术白皮书

已成为当前智算网络发展重要挑战。智算中心网络如图 1-1 所示，可按通信范围分为机内互联（Intra-Node）与机外互联（Inter-Node）两类：机内互联：主要用于单服务器或单节点内的多 GPU 连接。典型技术包括 PCIe 与 NVLink，其中最新一代 NVLink[4] 5.0 点对点带宽高达 1800 GB/s，并通过 NVLink Switch 实现多 GPU 多层交换机实现大规模互联，支撑分布式训练中的全互联需求。图 1-1 智算中心网络与网络协议栈无论采用机内互联还是采用机外互联，都要采用电交换芯片来做网络流量交换。然而，随着模型规模和节点数的增加，电交换面临带宽、延迟和能效的瓶颈。 1.3 光电协同交换网络的兴起在交换技术方面，电交换技术具有成熟性、协议兼容性和灵活的控制能力，基于以太网（如 RoCEv2、InfiniBand）传输协议，支持复其完整训练任务需部署约 25,000 张 H100 GPU 卡。假设每台服务器需与 Top-of-Rack（ToR）交换机建立至少 2 条 400G 上行链路，并在 Leaf 层与 Spine 层交换节点之间形成全互联结构，则光是 Leaf 层汇聚这些服务器所需的交换芯片就需提供数千个高带宽端口。进一步向上扩展 Leaf 层与 Spine 层的连接关系时，每增加一层交换所需的端口数将指数

20 积分 | 53 页 | 1.71 MB | 3 天前
3
2025年云智算光互连发展报告-中国移动

........... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.................................. 16 云智算光互连发展报告 4. 移动云在智算场景下的光互连应用展望......................... 速向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在数据中心内部，随着服务器端口速率向 400G、800G 乃至 1.6T 演进，光互连技术方案正迅速取代铜缆，成为数据中心以及超节点场景下的优选方案。随着 LPO、CPO 等技术引入数据中心架构，光电协同设计已成为芯片集成的核心技术需求，芯片-封装-系统级的多维协同优化成为新的挑战。与此同时，随着全光交换技术的逐步小规模应间使用 OCS 进行互连，如图 8 所示。在该组网下，通过 OCS 灵活调整拓扑的能力，隔离故障节点提升可用性，集群可减少 50 倍停机时间，并通过按需定制拓扑，提升 30%的吞吐量。除此之外，OCS 在网络成本和网络功耗都有明显收益。云智算光互连发展报告图 8 谷歌 TPU 的超节点架构国内主要由华为主导，目前推出了 DC-OXC 解决方案，其通过上层的算网协同模块，对底层链路进行流量调度。通过在智算集群等

20 积分 | 32 页 | 2.80 MB | 15 天前
3
中国联通数字化监控平台稳定性保障工具落地实践

故障处于被动防御，救火，运维大数据未被合理价值挖掘  工具重复：工具按烟囱式建设，能力分散  能力割裂：运维工具能力割裂不成体系  数据孤岛：应用、数据库、中间件、云平台、基础设施各管自身  维护对象：系统节点、微服务数量几何级数增加  调用关系：从简单对应到极其复杂，人力维护无法胜任  数据分片、异地存储，传统维护模式难以为继随着云原生技术的不断成熟，企业数字化转型也在不断加速，企业IT架构进入云原生时代，多云多集群部署已云平台维护方自定义 Promethues exporter 网络拓扑同步上报  卡顿、崩溃、错误等  调用量、响应时间、异常量等  应用调用trace  方法调用明细  云平台健康度、集群节点、pod容器指标  网关：KONG、LB、Nginx等  中间件：Kafka、MQ、Zookeeper 等  数据库：MySQL、Clickhouse、 Elasticsearch等 agent 系统C agent Flink kafka 告警计算指标聚合明细分析 Nacos Clickhouse 存储集群跨数据中心链路自动串连业务报文查询调度转发节点存储集群查询业务配置打标应用根因定位应用性能分析链路调用清单明细，方法级分析链路自动拓扑全层级告警墙应用实例、主机串联 GOPS 全球运维大会 2023 · 上海站

10 积分 | 24 页 | 9.74 MB | 4 月前
3
中国联通数字化监控平台稳定性保障工具落地实践

端到端稳定性保障体系缺失，自动化、智能化故障处理能力不足 n 故障处理过多依赖专家经验，故障没有沉淀为有效的资产 n 故障处于被动防御，救火，运维大数据未被合理价值挖掘分布式架构挑战 n 维护对象：系统节点、微服务数量几何级数增加 n 调用关系：从简单对应到极其复杂，人力维护无法胜任 n 数据分片、异地存储，传统维护模式难以为继运维生态挑战 n 工具重复：工具按烟囱式建设，能力分散 n 能力割裂：运维工具能力割裂不成体系核心业务场景、核心业务环节、核心业务链路拓扑白屏、慢响应、弹窗日志等卡顿、崩溃、错误等调用量、响应时间、异常量等应用调用 trace 方法调用明细云平台健康度、集群节点、 pod 容器指标网关： KONG 、 LB 、 Nginx 等中间件： Kafka 、 MQ 、 Zookeeper 等数据库： MySQL 、 Clickhouse 跨数据中心链路自动串连业务配置打标存储集群实例 id 、容器 id 网络设备主机 ip 、机房云平台链路调用清单明细，方法级分析告警收敛根因定位存储集群调度转发节点链路自动拓扑告警配置告警计算应用性能分析业务、应用维度链路展现 kafka Redis 告警计算指标聚合应用实例、主机串联明细分析 agent agent

20 积分 | 24 页 | 2.00 MB | 4 月前
3
面向大规模智算集群场景光互连技术白皮书（2025年）-中移智库

编制单位：中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前言当前，智算集群已成为支撑人工智能大模型训练、自动驾驶算法迭代等前沿领域的核心基础设施，并以惊人的速度从万卡向十万卡级规模演进。随着单节点算力突破每秒百亿亿次，这类超大规模集群的极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。传统基于铜介质的电互连方案，正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战：型性能指标已十分困难，需构建具备高带宽、低延迟特征的GPU卡间互连技术体系，以扩大节点规模，大幅降低通信时间占比，最终实现集群算效的显著提升。图 1-2 算力随着卡数规模扩大难以线性扩展同时，全球智算中心规模触达十万卡级别，智算集群架构正经历一场根本性变革，从传统单机八卡向超节点演变。超节点并非简单的硬件堆叠，是一种通过极致性能的高速互连技术，将数十乃至上千颗 GPU芯片飞跃。 1.2. 大规模智算集群呼唤“光进电退”技术目前，超节点智算集群展现出三大技术特性，一是互连性能高， GPU之间具有超低时延超高带宽（百纳秒级，TB/s级）且无收敛的互连能力；二是算力密度高，由单个或多个机柜构成，包含32个以上甚至到千卡的GPU数量，不断逼近电互连物理部署极限；三是能效PUE高，超节点单机柜功率可达40kW以上，采用液冷为主、风冷为辅的散热方案，配

10 积分 | 52 页 | 5.24 MB | 9 小时前
3
广西区块链产业发展白皮书（2025年）

ZK-Rollups 技术（零知识证明技术）、模块化架构及行业标准的广西壮族自治区信息中心（广西壮族自治区大数据研究院）广西区块链发展白皮书（2025 年） — 4 — 推进，不同链之间有效实现轻节点验证和跨链状态同步，将跨链结算时间压缩至毫秒级，大幅提升互操作性。在安全可靠方面，抗量子技术通过升级加密算法、优化密钥管理及增强异构链兼容性，抗量子签名算法，通过桥接器生成目标链密钥对，为跨链生张态势，但监管协调、网络安全等挑战仍存在。在工业互联网建设方面，星火·链网作为新型数字基础设施的产业生态价值正在不断增强，截至 2025 年 6 月，“星火·链网”超级节点基础设施建设已形成规模化应用，集聚效应不断释放，已在全国 11 个城市完成超级节点布局，骨干节点覆盖超过 60 个城市，探索形成了数字资产、产业金融、司法存证等一批典型应用场景。在可信数据空间建设方面，运用区块链技术解决互信互认问题，进一步释放数础设施，建设“主链-子链”多级架构，提供公共存证、数据溯源、跨链协同服务等公共服务，支撑数字政府、智慧农业、供应链金融、电子证照等应用创新。该平台目前已完成信创适配，开发数据要素服务、隐私计算等平台，可实现多节点间的协同计算和数据隐私保护，提升安全可控性，聚焦可信数据空间构建，开展可信管控技术攻关，推动数据要素畅通流动和数据要素价值释放，逐步形成支撑广西数字经济和数字社会发展的可信新型数字基础

10 积分 | 35 页 | 594.04 KB | 3 天前
3
国有企业“十五五”规划编制要点

础设施、氢能储能等新赛道，明确各板块发展方向。投资计分牌评估用“投、建、产、研”四象限评估重大工程项目的 ROI 与战略耦合度，确保投资精准有效。里程碑刻度设定列出年度投产节点、投运节点、达产节点，标注关键依赖资源，保障项目有序推进。 01 02 03 产业布局与投资安排 01 组织保障强化董事会战略委员会 + 党委研究前置，规划办设在“战略发展部”，形成高效协同个月董事会审议通过，确保规划在企业内部达成共识。正式报送国资委 T- 0 （月 6 月 30 日）正式报送国资委，留出 2- 3 个月与国资委沟通迭代，避免“最后一公里”卡壳。时间节点规划工具箱：让规划更“长牙带电” Part 05 战略性突破用 OKR ，运营性指标用 KPI ，确保规划既有战略高度又具可操作性。战略性与运营性指标防止指标混用，明确 OKR

20 积分 | 31 页 | 20.26 MB | 9 小时前
3
2025年中国-上海合作组织数字技术工具箱

工具一、Coremail XT安全电子邮件系统V6.0 Coremail 邮件系统登录页面 1 Coremail XT安全电子邮件系统V6.0聚焦全球化通信需求，以分布式架构于全球多地数据中心部署节点，通过智能路由与负载均衡技术，保障跨国邮件高速稳定传输。采用国际通用的SSL/TLS加密、数字证书等安全技术，筑牢邮件安全防线，同时支持上合组织成员国及全球主流语言，实现界面与内容的智能适配。列实现普通交易的跨链互操作。当其他市场主体作为联盟方接入当前区块链时，该系统通过和企业CA系统平滑集成，为区块链网络提供可靠的接入安全认证，新接入方只需要启动一个节点并连接网络里的某一节点接入即可，对于需要使用区块链节点的业务系统，提供了原生SDK、JSON RPC和 WebSocket等多种调用方式，有效降低了市场主体接入区块链的难度，有利于人保联盟链的推广。经济效益： 2022 再保人）数量占到四分之三，分保费交易金额超过150亿人民币。社会效益：共建全球再保险生态联盟，截至目前基于区块链的智能再保险交易平台已在三个法人机构分别部署区块链节点，初步形成人保联盟链，且支持更多法人主节点的扩展，后续逐步推广到行业联盟，吸引更多保险实体公司加入人保联盟链，通过跨链融合技术接入更多的联盟链/私有链，实现再保行业共建、共治、共享的再保险行业生态联盟。执行单位简介

20 积分 | 113 页 | 11.44 MB | 4 月前
3
华为：2025践行主机现代化：主机上云技术白皮书

期长，灵活性有限；而云计算技术则以横向扩展（Scale-out）为核心，通过增加通用服务器节点实现资源池化与弹性伸缩，可在分钟级甚至秒级完成资源扩容，能够快速应对业务负载波动，并支持跨地域分布式部署，更适合应对动态、快速变化的大规模业务需求，例如 Kubernetes 集群可轻松支持上万个节点。 (3) 新兴技术适配能力薄弱在数字化转型中，企业业务敏捷转型需融合云计算、大数据、AI、区块链等技术，但主机技术栈对此支持应速度增加新 Pod 副本承接流量，并在峰值过后自动缩容，释放资源，虚拟机、容器结合负载均衡服务提供弹性伸缩能力。 ④服务高可用：依靠多实例部署和负载均衡机制，结合健康检查功能，及时发现并隔离故障节点，确保服务不间断运行。关键机制包括： ① 配置自动化：网络配置不再依赖传统的命令行界面（CLI），而是采用云服务 RESTful（如 Kubernetes 的 CNI、NetworkPolicy 控制平面负责计算并自动下发配置，以确保数据平面达到并保持所需状态。网络配置不仅能够基线化、可审计，还要能自动化部署、可对账。 ② 灵活可扩展：控制平面应具备水平扩展能力，提供虚拟机节点 / 裸机节点 VPC 和 HPC/AI 高性能平面的统一管理，并承载容器服务以管理数万节点和数十万 Pod 的超大规模集群。在多云及边缘计算场景，控制面需支持跨域编排，有效应对 CIDR 重叠和 QoS 保障等挑战。提供企业级多集群、多云网络管理能力，

20 积分 | 63 页 | 32.07 MB | 3 天前
3

共 64 条前往

页

分类

语言

格式

全球计算联盟GCC：2025年异构算力协同白皮书

湖南大学：2025年智算中心光电协同交换网络全栈技术白皮书

2025年云智算光互连发展报告-中国移动

中国联通数字化监控平台稳定性保障工具落地实践

中国联通数字化监控平台稳定性保障工具落地实践

面向大规模智算集群场景光互连技术白皮书（2025年）-中移智库

广西区块链产业发展白皮书（2025年）

国有企业“十五五”规划编制要点

2025年中国-上海合作组织数字技术工具箱

华为：2025践行主机现代化：主机上云技术白皮书