全球计算联盟GCC:2025年异构算力协同白皮书......................................................................................25 5.2 主机级:超节点算力异构...............................................................................................25 国产芯片为例: (1)昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色,搭建开放生态,形 成“芯片一框架一集群一应用”的四级闭环,已支持建造多个万卡级集群,2025 年推出 384 卡超节点新形态,最大算力可达 300 PFLOPS,48 TB 高速内存,配备创新的高速互联总线, 实现 384 卡一台计算机运行,大幅提升大模型训推效率。 (2)昆仑芯三代 XPU-R,自研 XPU-Link 细化调度。针对异构 算力计算能力差距,面向大模型训练场景构建分布式并行策略组合、业务感知的非均质拆分 等能力,实现跨厂商算力的弹性按需调度;面向大模型推理场景,支持单机多卡异构分布式 推理和跨节点分布式异构推理等多种形式,适配模型推理不同阶段算力需求特性,精细化调 度实现异构算力降本增效;构建大模型训练和推理混合部署的调度底座,实现训推任务的动 态、实时切换,化解算力潮汐矛盾,完成从集群到设备级的异构算力精细化调度,实现异构10 积分 | 31 页 | 1.21 MB | 3 天前3
湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书已成为当 前智算网络发展重要挑战。 智算中心网络如图 1-1 所示,可按通信范围分为机内互联 (Intra-Node)与机外互联(Inter-Node)两类: 机内互联:主要用于单服务器或单节点内的多 GPU 连接。典型 技术包括 PCIe 与 NVLink,其中最新一代 NVLink[4] 5.0 点对点带宽 高达 1800 GB/s,并通过 NVLink Switch 实现多 GPU 多层交换机实现大规模互联,支撑分布式训练中的全互联需求。 图 1-1 智算中心网络与网络协议栈 无论采用机内互联还是采用机外互联,都要采用电交换芯片来做 网络流量交换。然而,随着模型规模和节点数的增加,电交换面临带 宽、延迟和能效的瓶颈。 1.3 光电协同交换网络的兴起 在交换技术方面,电交换技术具有成熟性、协议兼容性和灵活的 控制能力,基于以太网(如 RoCEv2、InfiniBand)传输协议,支持复 其完整训练任务需部署约 25,000 张 H100 GPU 卡。假设每台服务器 需与 Top-of-Rack(ToR)交换机建立至少 2 条 400G 上行链路,并在 Leaf 层与 Spine 层交换节点之间形成全互联结构,则光是 Leaf 层汇 聚这些服务器所需的交换芯片就需提供数千个高带宽端口。进一步向 上扩展 Leaf 层与 Spine 层的连接关系时,每增加一层交换所需的端口 数将指数20 积分 | 53 页 | 1.71 MB | 3 天前3
2025年云智算光互连发展报告-中国移动........... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.................................. 16 云智算光互连发展报告 4. 移动云在智算场景下的光互连应用展望......................... 速 向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在 数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进, 光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下 的优选方案。随着 LPO、CPO 等技术引入数据中心架构,光电协同设 计已成为芯片集成的核心技术需求,芯片-封装-系统级的多维协同 优化成为新的挑战。与此同时,随着全光交换技术的逐步小规模应 间使用 OCS 进行互连,如图 8 所示。在该组网下,通 过 OCS 灵活调整拓扑的能力,隔离故障节点提升可用性,集群可减 少 50 倍停机时间,并通过按需定制拓扑,提升 30%的吞吐量。除此 之外,OCS 在网络成本和网络功耗都有明显收益。 云智算光互连发展报告 图 8 谷歌 TPU 的超节点架构 国内主要由华为主导,目前推出了 DC-OXC 解决方案,其通过上 层的算网协同模块,对底层链路进行流量调度。通过在智算集群等20 积分 | 32 页 | 2.80 MB | 15 天前3
面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前 言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法 迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战: 型性能指标已十分困难,需构建 具备高带宽、低延迟特征的GPU卡间互连技术体系,以扩大节点规模, 大幅降低通信时间占比,最终实现集群算效的显著提升。 图 1-2 算力随着卡数规模扩大难以线性扩展 同时,全球智算中心规模触达十万卡级别,智算集群架构正经历 一场根本性变革,从传统单机八卡向超节点演变。超节点并非简单的 硬件堆叠,是一种通过极致性能的高速互连技术,将数十乃至上千颗 GPU芯片 飞跃。 1.2. 大规模智算集群呼唤“光进电退”技术 目前,超节点智算集群展现出三大技术特性,一是互连性能高, GPU之间具有超低时延超高带宽(百纳秒级,TB/s级)且无收敛的互连 能力;二是算力密度高,由单个或多个机柜构成,包含32个以上甚至 到千卡的GPU数量,不断逼近电互连物理部署极限;三是能效PUE高, 超节点单机柜功率可达40kW以上,采用液冷为主、风冷为辅的散热方 案,配10 积分 | 52 页 | 5.24 MB | 15 小时前3
广西区块链产业发展白皮书(2025年)ZK-Rollups 技术(零知识证明技术)、模块化架构及行业标准的 广西壮族自治区信息中心(广西壮族自治区大数据研究院) 广西区块链发展白皮书(2025 年) — 4 — 推进,不同链之间有效实现轻节点验证和跨链状态同步,将跨链 结算时间压缩至毫秒级,大幅提升互操作性。在安全可靠方面, 抗量子技术通过升级加密算法、优化密钥管理及增强异构链兼容 性,抗量子签名算法,通过桥接器生成目标链密钥对,为跨链生 张态势,但监管协调、网络安全等挑战仍存在。在工业互联网建 设方面,星火·链网作为新型数字基础设施的产业生态价值正在 不断增强,截至 2025 年 6 月,“星火·链网”超级节点基础设施建 设已形成规模化应用,集聚效应不断释放,已在全国 11 个城市完 成超级节点布局,骨干节点覆盖超过 60 个城市,探索形成了数字 资产、产业金融、司法存证等一批典型应用场景。在可信数据空 间建设方面,运用区块链技术解决互信互认问题,进一步释放数 础设施,建设“主链-子链”多级架构,提供公共存证、数据溯源、 跨链协同服务等公共服务,支撑数字政府、智慧农业、供应链金 融、电子证照等应用创新。该平台目前已完成信创适配,开发数 据要素服务、隐私计算等平台,可实现多节点间的协同计算和数 据隐私保护,提升安全可控性,聚焦可信数据空间构建,开展可 信管控技术攻关,推动数据要素畅通流动和数据要素价值释放, 逐步形成支撑广西数字经济和数字社会发展的可信新型数字基础10 积分 | 35 页 | 594.04 KB | 3 天前3
2025年中国-上海合作组织数字技术工具箱工具一、Coremail XT安全电子邮件系统V6.0 Coremail 邮件系统登录页面 1 Coremail XT安全电子邮件系统V6.0聚焦全球化通信需求,以分布式架构于全球多地数据中心部署节点,通过智 能路由与负载均衡技术,保障跨国邮件高速稳定传输。采用国际通用的SSL/TLS加密、数字证书等安全技术,筑牢邮 件安全防线,同时支持上合组织成员国及全球主流语言,实现界面与内容的智能适配。 列实现普通交易的跨链互操作。当其他市场主体作为联盟方接入当 前区块链时,该系统通过和企业CA系统平滑集成,为区块链网络提供可靠的接入安全认证,新接入方只需要启动一个 节点并连接网络里的某一节点接入即可,对于需要使用区块链节点的业务系统,提供了原生SDK、JSON RPC和 WebSocket等多种调用方式,有效降低了市场主体接入区块链的难度,有利于人保联盟链的推广。 经济效益: 2022 再保 人)数量占到四分之三,分保费交易金额超过150亿人民币。 社会效益: 共建全球再保险生态联盟,截至目前基于区块链的智能再保险交易平台已在三个法人机构分别部署区块链节点, 初步形成人保联盟链,且支持更多法人主节点的扩展,后续逐步推广到行业联盟,吸引更多保险实体公司加入人保联 盟链,通过跨链融合技术接入更多的联盟链/私有链,实现再保行业共建、共治、共享的再保险行业生态联盟。 执行单位简介20 积分 | 113 页 | 11.44 MB | 4 月前3
华为:2025践行主机现代化:主机上云技术白皮书期长,灵活性有限;而云计算技术则以横向扩展 (Scale-out)为核心,通过增加通用服务器节点实现资源池化与弹性伸缩,可在分钟级甚至秒级完成资源扩 容,能够快速应对业务负载波动,并支持跨地域分布式部署,更适合应对动态、快速变化的大规模业务需求, 例如 Kubernetes 集群可轻松支持上万个节点。 (3) 新兴技术适配能力薄弱 在数字化转型中,企业业务敏捷转型需融合云计算、大数据、AI、区块链等技术,但主机技术栈对此支持 应速度增加新 Pod 副本承接流量,并在峰值过后自动缩容,释放资源,虚拟机、容器结合负载均衡服务 提供弹性伸缩能力。 ④服务高可用:依靠多实例部署和负载均衡机制,结合健康检查功能,及时发现并隔离故障节点,确保服 务不间断运行。 关键机制包括: ① 配置自动化:网络配置不再依赖传统的命令行界面(CLI),而是采用云服务 RESTful(如 Kubernetes 的 CNI、NetworkPolicy 控制平面负责计算并自动下发配置,以确保数据平面达 到并保持所需状态。网络配置不仅能够基线化、可审计,还要能自动化部署、可对账。 ② 灵活可扩展:控制平面应具备水平扩展能力,提供虚拟机节点 / 裸机节点 VPC 和 HPC/AI 高性能平面 的统一管理,并承载容器服务以管理数万节点和数十万 Pod 的超大规模集群。在多云及边缘计算场景, 控制面需支持跨域编排,有效应对 CIDR 重叠和 QoS 保障等挑战。提供企业级多集群、多云网络管理能力,20 积分 | 63 页 | 32.07 MB | 3 天前3
AI+HR黑科技秘笈-AI赋能人力资本智能化变革Network Embedding)。我们利用 Graph Embedding 技术,把这些实体嵌入到 低维的向量空间,可以直接比较他们的相似性,并能大大的提高简历和岗位的匹配效果。对于 具有较多类型节点且各类型节点的数量巨大来说这是比较好的尝试,而且取得了一些效果。 由于 graph embedding 的广泛应用,同时衍生出了很多计算 embedding 的方法,下面我们介 绍几种商业上比较常用的几种方法: skipgram,对于已经建立的 Graph 来说每个节点可以是不同的实 体且实体时间可以有不同的关系,从图上的一个节点开始随机游走(random walk),如果节点 之间有 weight 可以根据 weight 的不同进行 walk 来生成类似文本的序列数据,实体 id 作为一 个个词使用 skip gram 训练得到词向量。 算法的大体思路就是:根据图中节点随机游走 -> 生成一定长度的序列 -> 年文章 [4] 中微软亚洲研 究院提出来的一种算法,LINE 定义了两种度量节点相似度的方法 : 一阶相似度 (First-order proximity) 和二阶相似度 (Second-orderproximity)。 一阶相似度 其中一阶相似度就是两个点直接相连的边的权重,且边权重越大说明两个点越相似,如果两个 节点之间无连接,则一阶相似度为 0; 对每个无向边,定义顶点和的联合概率分布为:20 积分 | 98 页 | 8.41 MB | 15 天前3
阿里云:2025年阿里云百炼安全白皮书低的成本、 完备的安全保障体系,既能提供最先进、最安全的模型,也能够为用户使用模型提供 全面保障,提供极具竞争力的解决方案。此外,AI 出海也正在成为企业出海新趋势, 依托云服务广泛覆盖全球各节点的 AI 全栈能力支撑,“云 + AI”供应链协同出海使 得模型应用得以突破地域限制,实现全球范围内的高效部署与优化,助力用户全球业 务创新。 MaaS 成为模型服务的主流模式。MaaS 为企业提供开箱即用的 实际问题。 3.1 数据全生命周期加密 阿里云百炼构建了一套覆盖数据全生命周期的端到端加密体系,确保数据在三个核心 状态下均受到严格保护: ● 传输中 (Data in Transit):在节点间通信前,阿里云百炼强制通过远程证明来验 证对方身份并动态协商密钥,确保传输信道的可信; ● 使用中 (Data in Use):阿里云百炼利用可信执行环境 (TEE) 的硬件隔离能力,保 护 需要指出的是,上述所有加密操作均使用临时密钥。这些密钥的生命周期严格绑定于 业务会话,一旦节点停止或重启,密钥即被销毁,无法用于恢复任何历史数据。 3 可信架构 - 阿里云百炼落地 3.2 可扩展与高可用设计 在大模型对话及 Agent 等场景下,用户的敏感数据流经多个业务节点。这使得传统的 端到端加密在落地时面临两个难题:一是用户需要与每个节点逐一建立信任,流程繁 琐;二是为了保证兼容性,可用的密码学算法集合也会受到“木桶效应”限制。20 积分 | 59 页 | 45.36 MB | 3 天前3
2025年城市级云网平台为运营商转型开辟新思路白皮书增长,并改变网络流量特征。Omdia 预测,至 2028 年固定宽带流量将达到 8.7 ZB,比 2023 年增长 51%。同时,人工智能应用 的不断普及和发展也在逐渐改变网络流量特征。网络边缘节点将承载更多人工智能负荷,并带 来边缘网络流量的爆发,从而对边缘网络建设提出新的要求。 与此同时,全球运营商的业务收入并未随流量增长实现同步增长,运营商的业务经营仍面临相 当大的压力与挑战。而 训练和推理工作 负载可能会在云端、网络边缘、或本地设备等不同位置运行。如果网络边缘节点承载了人工智 能推理负载,这些节点将持续接收到较为稳定的数据流量。由此带来边缘网络流量的爆发,并 对边缘网络建设提出新的要求。 Omdia 的全球运营商调研显示,64%的受访者表示将在网络深边缘(Far edge)节点部署人 工智能应用,比选择利用公有云数据中心部署人工智能应用的受访者比例高出 12 个百分点。 个百分点。 同时,还有接近 50%的受访者表示,将在浅边缘(Near Edge)节点部署人工智能应用。根 据调研数据以及对典型人工智能应用及其流量特征的分析, Omdia 预测,至 2030 年,流向 边缘共享基础设施的新增 AI 应用流量,将在总的新增 AI 应用流量中占比超过一半(如下 图)。 为了应对如此高速的流量增长,全球运营商大力投资光纤网络,到 2028 年全球光纤宽带连接0 积分 | 24 页 | 1.15 MB | 5 月前3
共 41 条
- 1
- 2
- 3
- 4
- 5
