pdf文档 湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书 VIP文档

1.71 MB 53 页 0 下载 6 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
湖南大学 中国联通研究院 中国联通软件研究院 北京邮电大学 上海交通大学 2025 年 8 月 智算中心光电协同交换网络 全栈技术白皮书 编写说明 编写单位: 湖南大学、中国联通研究院、中国联通软件研究院 北京邮电大学、上海交通大学 编写人员: 湖南大学: 陈果、梁帮博、陈禹澎、刘璇 中国联通研究院: 程新洲、曹畅、徐博华、杨斌、文晨阳、谢志普、徐洁、 黄金超 中国联通软件研究院: 杨迪、李张体、张承琪、王宇、马煜 北京邮电大学: 邢颖、林雪燕 上海交通大学: 赵世振 前言 人工智能正以前所未有的速度重塑人类生产与生活方式。以大语 言模型、多模态模型为代表的新一代 AI 应用,持续突破计算与通信 的极限,推动智算中心从计算、存储到网络的全栈架构深度演进。在 这一浪潮中,智算中心不仅是国家科技战略的核心支撑,更是产业智 能化升级的关键基础设施。 随着 AI 模型参数量呈指数级增长,尤其是在大规模分布式并行训 练场景下,网络性能已成为制约智算中心整体效率的关键瓶颈。当前 普遍部署的纯电交换网络在互联规模、带宽密度、端到端时延与能效 比等方面逐渐逼近物理与经济的上限:算力芯片的通信需求远超传统 网络承载能力,高功耗、高成本和复杂布线问题愈发突出。 在此背景下,光交换技术凭借超大带宽、超低延迟与低功耗等特 性,正与电交换形成互补融合的“光电协同”架构,成为新一代智算 中心网络的重要发展方向。光电协同不仅能够在物理层显著提升链路 性能,还为网络的灵活重构、智能调度与按需适配提供了技术空间。 全球领先的产业与科研力量均已在此领域展开探索,并在部分应用场 景实现试点部署。 然而,要实现光电协同网络在智算中心的规模化落地,仍需跨越 多重技术关卡。从应用层集合通信模式与动态拓扑的适配,到传输层 协议机制与流量调度优化;从路由层控制平面的可扩展性,到链路层 资源的智能分配;再到物理层光交换的传输损耗与延迟难题,均对网 络架构设计、协议栈演进与资源编排提出了系统性挑战。 本白皮书面向智算中心光电协同交换网络的全栈技术体系,旨在: • 梳理国家政策、AI 发展趋势与智算中心网络需求,揭示光电 协同兴起的背景; • 分析光交换与电交换的性能差异与技术互补性; • 总结光电协同网络在应用层、传输层、路由层、链路层与物理 层的关键挑战与发展路径; • 提出面向未来的技术演进方向与标准化路线建议。 我们期望本白皮书能为智算中心网络领域的研究人员、设备制造 商、运营商与服务提供商,提供系统的参考框架与技术洞察,共同推 动构建超大规模、超大带宽、超低时延、超高可靠的新一代智算中心 网络基础设施。 本白皮书的编制工作得到了国家自然科学基金项目(编号: U24B20150)的支持,在此表示感谢。 目录 前言............................................................................................................. 3 1. 智算中心发展与光电协同交换网络兴起........................................... 7 1.1 国家政策发展..............................................................................7 1.2 智算中心发展..............................................................................8 1.3 光电协同交换网络的兴起........................................................11 1.3.1 电交换的技术瓶颈与发展困境..................................... 12 1.3.2 光交换的性能优势与发展趋势.................................... 15 2. 智算中心光电协同交换网络面临挑战............................................. 20 2.1 应用层:集合通信与网络拓扑的失配挑战...........................21 2.2 传输层:复杂功能的协议设计与流量调度挑战...................21 2.3 网络层:路由收敛滞后挑战................................................... 23 2.4 链路层:非对称资源动态分配挑战....................................... 24 2.5 物理层:信号衰减挑战与时延约束挑战...............................25 3. 智算中心光电协同交换网络协议栈技术发展................................. 26 3.1 应用层:面向光电网络的集合通信重构协议.......................27 3.1.1 预测通信模式,为重配置提供需求启示.....................28 3.1.2 拓扑有感知的动态集合通信重构................................. 29 3.2 传输层:面向光电网络的高性能传输协议...........................31 3.2.1 灵活的多路径传输机制................................................. 32 3.2.2 双状态拥塞控制机制..................................................... 33 3.2.3 错峰出行智算流量调度方案......................................... 35 3.3 网络层:面向光电网络的智能路由控制...............................36 3.3.1 路由协议的光电优化方向............................................. 37 3.3.2 面向光电拓扑的预计算优化与双模路由表设计.........38 3.4 链路层:面向光电网络的智能双工重构...............................39 3.4.1 上下行非对称带宽的链路利用..................................... 40 3.4.2 智能预测与链路池化资源管理策略.............................41 3.5 物理层:分布式光交换与物理层优化................................... 45 4. 总结与展望..........................................................................................46 4.1 光电协同交换网络的标准化路径........................................... 47 4.2 面向未来的研究与产业发展方向........................................... 49 参考文献...................................................................................................51 1. 智算中心发展与光电协同交换网络兴起 1.1 国家政策发展 全球智能化浪潮风起云涌,人工智能领域创新呈突破之势,语言 大模型、多模态大模型和具身智能等领域日新月异,推动以智算中心 为代表的基础设施向更高效、更弹性的方向快速发展。 2025 年 1 月 1 日,国家发展改革委等联合印发《国家数据基础 设施建设指引》[1]强调高效弹性传输网络可为大模型训练和推理等核 心场景数据传输流动提供高速稳定服务,在高效弹性传输网络支撑下, 能够显著提升数据交换性能,降低数据传输成本。 7 月 26 日,李强总理出席 2025 世界人工智能大会暨人工智能全 球治理高级别会议开幕式,围绕如何把握人工智能公共产品属性、推 进人工智能发展和治理发表致辞。大会发表《人工智能全球治理行动 计划》[2]协力推进全球人工智能发展与治理。该计划指出应“加快数 字基础设施建设”,即加快全球清洁电力、新一代网络、智能算力、 数据中心等基础设施建设,完善具备互操作性的人工智能和数字基础 设施布局,推动统一算力标准体系建设。 这些政策举措充分体现了我国在人工智能基础设施建设方面的 前瞻性布局,通过政策引导、标准制定和国际合作等方式,为人工智 能技术创新和产业发展构建坚实的算力支撑体系,同时为智算中心的 快速发展注入了强大的助推剂。 1.2 智算中心发展 据中国互联网络信息中心的报告[3],2024 年我国人工智能产业规 模突破 7000 亿元,连续多年保持 20%以上的增长率。2025 年上半年, 生成式人工智能产品实现了从技术到应用的全方位进步,产品数量迅 猛增长,应用场景持续扩大。 在人工智能+医疗领域,医联 MedGPT、神农中医药大模型和岐 黄问道等医疗大模型已广泛应用于辅助诊断、中医诊疗、智能开方等 环节,显著提升了医疗服务质量和效率。在人工智能+汽车领域,大 模型推动变革汽车产业全链条,全面智能化升级。华为盘古汽车大模 型聚焦汽车产业全链条场景,覆盖设计、生产、营销、研发等核心环 节,为汽车行业垂直领域解决方案。在数据要素价值释放过程中,强 大的算力可以将“大数据”转向“好数据”,并充分挖掘海量数据的经济 和社会价值,不断激活数据要素潜能,实现原始数据向知识再向智慧 跃迁的更高层次价值释放。 随着人工智能与实体经济深度融合,智算需求已经呈现爆发式增 长。AIGC 大模型参数量达到万亿,训练阶段需要万卡甚至十万卡集 群支持。如表 1-1 所示,训练万亿级模型(如 GPT-4)已突破万亿(10²⁵) FLOPs,需数千至万块 H100 级芯片,训练成本达上亿美元。 表 1-1 不同规模模型的算力需求估算 模型规模 典型硬件 GPU 数量 训练成本(美元) 1 亿~10 亿 V100/A100(数十卡) <100 <10k 百亿级 A100/H100(数千卡) 1,000-5,000 1M-10M 千亿级 H100(万卡级) 5,000-10,000 10M-100M 万亿级+ H100/B100(数万卡) >20,000 100M-500M+ 大模型参数量达到万亿,迭代训练需使用数据并行、流水线并行、 张量并行和专家并行等技术。并行推理将每个模型层的计算任务拆分 到各个服务器中多卡 GPU 上执行。各 GPU 无法独立完成计算工作。 在训练的过程中需要进行频繁且复杂的通信。这就要求构建 GPU 之 间的全互联高速数据通道,以确保数据的高效传输,最大限度减少 GPU 间通信耗时。那么,如何满足大规模 GPU 之间的高效通信,构 建超大规模、超大带宽、超低时延、超高可靠的智算网络,已成为当 前智算网络发展重要挑战。 智算中心网络如图 1-1 所示,可按通信范围分为机内互联 (Intra-Node)与机外互联(Inter-Node)两类: 机内互联:主要用于单服务器或单节点内的多 GPU 连接。典型 技术包括 PCIe 与 NVLink,其中最新一代 NVLink[4] 5.0 点对点带宽 高达 1800 GB/s,并通过 NVLink Switch 实现多 GPU 全互联,支持构 建大规模 GPU 池。 机外互联:用于跨服务器或跨机柜的 GPU 通信,需依赖高速网 络结构实现。当前主流方案采用电交换芯片构建以太网或 IB 网络, 常见架构包括 Fat-Tree、Leaf-Spine、DCell、BCube。这些结构通过 多层交换机实现大规模互联,支撑分布式训练中的全互联需求。 图 1-1 智算中心网络与网络协议栈 无论采用机内互联还是采用机外互联,都要采用电交换芯片来做 网络流量交换。然而,随着模型规模和节点数的增加,电交换面临带 宽、延迟和能效的瓶颈。 1.3 光电协同交换网络的兴起 在交换技术方面,电交换技术具有成熟性、协议兼容性和灵活的 控制能力,基于以太网(如 RoCEv2、InfiniBand)传输协议,支持复 杂网络策略,在智算中心广泛部署。基于电交换机的典型的架构包括 Fat-Tree、Leaf-Spine、Dcell、BCube 等。受限于集成电路工艺的发展 限制,传统电交换机的带宽密度已难以满足大模型训练增长的流量需 求。光交换具有大带宽、可靠性高、功耗小、组网灵活的特点,相比 电交换机具有高带宽、低能耗的优势,是突破网络核心侧带宽密度瓶 颈的最佳技术路线,适用于超大规模 AI 训练集群。光电协同架构[6] 可以将光交换的高带宽、低延迟和电交换的灵活控制能力整合起来, 提供 TB 级带宽,充分发挥光与电两者优势。 表 1-2 光电交换技术比较 光电协同 全电交换 全光交换 带宽 TB 级 ≤800Gbps TB 级 延迟 纳秒(光)+微秒(电 控制) 微秒级 纳秒级 能效 功耗较低 功耗高 功耗低 成本 一般 较低 较高 1.3.1 电交换的技术瓶颈与发展困境 端口密度瓶颈 尽管近年来电交换芯片在制程工艺、转发架构与缓存设计方面不 断优化,但在智算中心应用场景下,其性能仍面临明显瓶颈。随着摩 尔定律逐渐失效,交换芯片的更新迭代速度明显放缓,芯片交换容量 难以实现持续增长。目前主流商用电交换芯片已发展至 102.4 Tbps 级 别,例如 Broadcom Tomahawk 6 采用 3nm 制程工艺,可提供多达 12 8 个 800 G 端口或 64 个 1.6T 端口。而国产交换芯片仍停留在 7nm 制 程的 25.6Tbps 交换容量,瓶颈效应更加严重。然而在实际部署中, 为保障链路冗余、流控带宽和管理接口,芯片可用端口通常不到理论 最大值,导致整体带宽扩展能力受到压制。尤其是在并行训练中伴随 的突发性大量同步与广播时,网络时常出现瞬间拥塞、缓存溢出与延 迟剧增等问题[7]。 与此同时,随着大模型参数规模和训练复杂度的持续增长,智算 中心对网络端口密度的需求正加速攀升。以 GPT-4 等万亿级模型为例, 其完整训练任务需部署约 25,000 张 H100 GPU 卡。假设每台服务器 需与 Top-of-Rack(ToR)交换机建立至少 2 条 400G 上行链路,并在 Leaf 层与 Spine 层交换节点之间形成全互联结构,则光是 Leaf 层汇 聚这些服务器所需的交换芯片就需提供数千个高带宽端口。进一步向 上扩展 Leaf 层与 Spine 层的连接关系时,每增加一层交换所需的端口 数将指数增长,极易突破现有交换芯片的供给上限,迫使架构引入更 多堆叠与横向扩展链路,从而加重布线密度与网络拥塞风险。 网络带宽瓶颈 当前,大模型训练通常依赖数千张 GPU 卡协同工作数周甚至数月, 训练效率瓶颈并不仅仅取决于单 GPU 的算力,也受到 GPU 集群间通 信效率的影响。GPU 间需进行频繁的梯度同步、参数更新、状态同 步等集合通信操作,这些数据传递操作在服务器机内和机间均存在, 且随着模型参数量的逐步提升,所传递的数据量也会不断增加。因此 网络带宽越高,网络通信延迟在训练周期中占据的时间越短,也就能 够提升 GPU 的利用率和有效计算时间占比。 以 千 亿 参 数 规 模 的 AI 大 模 型 为 例 , 数 据 并 行 单 次 迭 代的 AllReduce 集合通信数据量可达数百 GB 级别,如此庞大的数据量在 极短的时间内需要完成传输与同步,对网络带宽提出了极高的要求。 下表展示了不同模型规模单次梯度同步数据量的大小。 模型规模 典型 GPU 数 量 单次梯度同步数 据量 通信敏感度 十亿参数 数十卡 10GB 至 50GB 中等 千亿参数 数百至千卡 300GB 至 800GB 高 万亿参数 数千至万卡 大于 1TB 极高 电交换机的交换性能依赖其内部交换芯片,交换芯片的性能由其 交换容量(switch capacity)衡量。交换芯片的交换容量 c 与交换机器的 端口数 n、每端口的速率 r 满足关系: c = n × r 然而,由于交换容量 c 受限,交换机的端口数量 n 和带宽 r 无法 同步提升,且其中一项的增加往往会导致另一项的下降,进一步制约 了整体性能的提升。 网络延迟瓶颈 大模型训练需要多机多卡完成该轮所有集合通信操作后才可进行 下一轮迭代,这种同步性特征要求智算网络必须提供极低的长尾时延, 避免出现木桶效应[8]。根据理论推算,对于千亿参数规模的大模型训 练来说,动态时延由 10us 增加至 1000us,GPU 有效计算时间占比将 降低 10%左右。同样,大模型推理对网络时延也有着更高的要求,以 确保能够为用户提供优质的推理服务。 传统数据中心网络普遍采用多层电交换架构,通过网卡与交换机 连接多个计算节点,数据包在传输过程中需要经过多个交换节点的中 转。受制于电交换“存储—转发”的工作机制,数据包必须在交换机 内部进行排队等待,多层级的交换路径使得这一排队延迟被进一步放 大,显著增加了端到端的网络时延,难以满足大模型训练对低延迟、 高吞吐的严苛需求。 运行功耗瓶颈 大模型训练依赖数万张 GPU(如英伟达 A100/H100)并行计算。 例如,GPT-3 训练耗电达 1,287 兆瓦时,相当于 3000 辆特斯拉跑 20 万英里的总耗电量。[9]根据 Lumentum 的研究,GPT-4 的训练网络 功耗约为 21.5 MW;当扩展至 GPT-5(估计有 17.5 万亿参数、 100,000 GPU)时,网络功耗飙升至 122 MW——超过 10% 的胡佛 大坝发电量。可见,电交换网络的功耗随训练规模呈指数级上升[10]。 此外,大模型的训练周期长(如 GPT-4 需 90-100 天),GPU 持续高 负载运行,且当前利用率仅 32%-36%,故障率较高,进一步延长训 练时间并推高能耗。 为满足极端高速率转发需求,电交换芯片必须在高功率状态下运 行,其高速 I/O 与大型转发能力意味着持续的高能耗(例如 CMOS 芯片在多层高负载下功率分布复杂)。与此同时,传统数据中心网络 采用多层级的分层拓扑(如 fat-tree 或 Clos),在骨干和汇聚层中互 连大量电交换元件,进一步扩大功耗基数与硬件复杂性。最终,这两 方面叠加——单芯片高功率加上大规模设备自下而上扩展——使整 体电交换网络的功耗急剧上升,在大规模模型训练与数据中心应用场 景下具有供电不稳定的风险。 1.3.2 光交换的
下载文档到本地,方便使用
共 53 页, 还有 2 页可预览, 继续阅读
文档评分
请文明评论,理性发言.