2025年云智算光互连发展报告-中国移动
2.80 MB
32 页
0 下载
21 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
云智算光互连发展报告 前言 本发展报告面向未来智算中心超大规模扩展、AI 大模型极致性 能与高效部署的核心需求,联合产业合作伙伴共同提出先进光互连 技术架构与演进路径,旨在突破传统电互连在带宽、距离与能效方 面的根本性瓶颈,构建高带宽、超低时延、低功耗及高可靠性的新 一代智算中心互连底座,为人工智能、高性能计算及云服务等关键 业务的持续跃升提供坚实支撑。 本发展报告的版权归中国移动云能力中心所有,并受法律保护。 转载、摘编或利用其它方式使用本发展报告文字或者观点的,应注 明来源。 云智算光互连发展报告 目录 前言...................................................................................................... 1 目录.....................................................................................................2 1. 背景与需求...................................................................................4 2. 智算中心光互连技术概述...........................................................5 2.1 新型可插拔模块.................................................................5 2.1.1 线性可插拔光学.................................................... 5 2.1.2 线性接收光学........................................................ 6 2.2 光电共封技术.....................................................................6 2.2.1 板上光学.................................................................6 2.2.2 近封装光学.............................................................7 2.2.3 共封装光学.............................................................8 2.2.4 光输入/输出...........................................................9 2.3 光交换.................................................................................9 2.3.1 光线路交换.............................................................9 2.3.2 光分组交换...........................................................11 2.3.3 光突发交换...........................................................12 3. 智算场景下光互连技术的应用研究........................................ 13 3.1 LPO 在 AIGC 算力网络中的应用..................................... 13 3.2 CPO 交换机在智算场景下的应用................................... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.................................. 16 云智算光互连发展报告 4. 移动云在智算场景下的光互连应用展望................................ 18 5. 产业生态与标准化.....................................................................21 5.1 光电领域互连标准............................................................21 5.1.1 CPO 领域标准....................................................... 21 5.1.2 LPO 领域标准....................................................... 22 5.1.3 Chiplet 领域标准............................................... 22 5.2 光电领域交换标准与产业生态....................................... 24 5.2.1 光交换标准发展现状........................................... 24 5.2.2 光交换产业生态进展.......................................... 27 6. 发展趋势与发展建议.................................................................28 6.1 发展趋势............................................................................28 6.2 产业发展建议....................................................................28 附录:...............................................................................................30 常见缩略语...............................................................................30 云智算光互连发展报告 1. 背景与需求 在 AI 大模型、云计算及智能应用普及的推动下,全球算力需求 正经历前所未有的爆发式增长。基于铜缆的互连技术在带宽密度、 传输距离与能耗效率上的瓶颈日益凸显,光子作为光互连技术的信 息载体和物理基石,具有极低传输损耗、超高频率、抗干扰等物理 特性,使得光互连技术在带宽、距离、抗扰、功耗、密度等方面具 有压倒性优势,拥有巨大潜力。 光互连技术的应用范围正从传统的电信骨干网和城域网,快速 向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在 数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进, 光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下 的优选方案。随着 LPO、CPO 等技术引入数据中心架构,光电协同设 计已成为芯片集成的核心技术需求,芯片-封装-系统级的多维协同 优化成为新的挑战。与此同时,随着全光交换技术的逐步小规模应 用,为光互连技术的演进方向提供了新的思路。 本发展报告聚焦光互连技术在智算中心和数据中心等典型应用 场景下的技术演进,为行业提供兼具前沿性与实践性的技术参考。 云智算光互连发展报告 2. 智算中心光互连技术概述 随着智算中心的飞速发展,数据吞吐量激增,对底层硬件互连 提出了前所未有的挑战。在此背景下,光互连技术以高带宽、低时 延、低功耗等方面的优势,有望成为未来算力时代不可或缺的基础 设施。智算中心场景下的光互连技术具体包括新型可插拔模块、光 电共封以及光交换三个核心技术方向。 2.1 新型可插拔模块 2.1.1 线性可插拔光学 随着数据中心传输速率的不断攀升,传统光模块的功耗和成本 急剧上升,已成为制约数据中心扩展的瓶颈。 图 1 线性可插拔光学结构 在传统光模块的功耗中,DSP 模块占了很大的比例,因此在 LPO 技术中,直接去除了传统光模块中的 DSP,在发射端使用具有高线 性度的 Driver,在接收端使用高线性度的 TIA,从而构建一个纯模 拟的、“线性直驱”的光信号处理通道,如图 1 所示。虽然去除了 传统光模块中的 DSP,但是 DSP 功能并未消失,而是转移到了交换 机 ASIC 中,这意味着 ASIC 的 SerDes 模块必须具备更强的线性驱动 能力和信号处理能力。 由于移除了传统光模块中的 DSP 模块,LPO 技术能够将功耗降 云智算光互连发展报告 低 30%~50%,并能够降低延迟。于此同时,由于去除了 DSP 模块, 能够在一定程度上节省成本,并且 LPO 技术保留了可插拔的产品形 态,有比较好的可维护性。 2.1.2 线性接收光学 LRO 在接收端移除了 DSP,发送端保留了重定时器,是相较于 LPO 的折中方案,如图 2 所示。重定时器可以对信号进行整形、重 新计时和放大,发送端保留重定时器能够补偿了信道损耗,确保了 发送信号的质量,并提供了更好的互操作性和链路诊断能力。而接 收端采用线性模拟组件直接接收来自主机 ASIC 的信号,这在一定程 度上减少了的光模块的功耗,以实现节能降本的功效。 图 2 线性接收光学结构示意,左侧为 LRO,右侧为 LPO 2.2 光电共封技术 2.2.1 板上光学 OBO 的核心思想是:将光引擎从传统的可插拔模块中解放出来, 云智算光互连发展报告 直接安装到系统主板上,但交换或计算的电芯片仍然保持独立的封 装,如图 3 所示。光引擎与电芯片通过主板上的精密走线进行互连。 图 3 板上光学结构 由于移除了可插拔模块的“金手指”接口、外壳以及部分重复 的电路,缩短了电芯片与光引擎的电气路径,从而降低了信号驱动 的功耗。同时,如果光引擎损坏,可以单独进行更换,而无需更换 昂贵的电芯片或整个主板。 在性能方面,OBO 虽然优于可插拔模块,但由于主板上的互连 距离仍然较长,因此在超高速率传输场景下的优势并不明显。 2.2.2 近封装光学 NPO 的核心思想是:将光引擎非常靠近电芯片放置,但并不像 CPO 那样与电芯片共封装在同一基板或中介层上。它通常将光引擎 安装在同一基板上,通过极短的高性能电气链路与电芯片相连,形 成一个高度集成的系统,如图 4 所示。 图 4 近封装光学结构 NPO 将光引擎与电芯片物理分离,避免了电芯片的高温热量直 接冲击光器件,散热设计更简单、高效。由于电芯片本身是巨大的 热源,工作时温度很高,而激光器等光器件对温度极其敏感,所以, 云智算光互连发展报告 光引擎与电芯片共封装会导致波长漂移和性能下降。同时,由于光 引擎未与电芯片共封装,NPO 在可维护性层面具有优势,如果光引 擎失效,只需更换光引擎子模块即可,避免了大量的维护成本。 相比激进的 CPO 技术,NPO 技术是一种更务实、风险更低的路 径。并且,NPO 与传统光模块相比,其性能远超传统光模块,其主 要优势包括以下几点: NPO 的光引擎拥有更大的可布置面积和更灵活的走线方案,可以 方便地使用 LGA 封装,且有利于光引擎散热; NPO 不影响电芯片原有设计,只对 PCB 或基板做差异设计即可满 足不同需求; NPO 与电芯片解耦,能够避免形成电芯片垄断问题; NPO 可单独测试 TP1 的电信号质量,可归一化设备的驱动与固件, 可测试性更好。 2.2.3 共封装光学 CPO 相对于 NPO,光引擎与电芯片共封装在同一个插槽或基板上, 集成度更高,电互连距离更短,如图 5 所示。同时,相对于传统光 模块,CPO 能够显著降低功耗,并通过节省设备面板空间,可克服 面板 I/O 密度限制。 图 5 共封装光学结构 由于光引擎和电芯片紧密共封装,任何一部分的故障都可能导 致整个封装体的更换,因此对光引擎的良率、可靠性以及可维护性 方面提出了极高要求。 云智算光互连发展报告 CPO 目前仍处于发展初期,但其在超高带宽、低功耗、高密度 互连方面的巨大潜力使其成为未来光通信,特别是 AI 算力集群和超 大规模数据中心不可或缺的技术方向之一。 2.2.4 光输入/输出 OIO 的核心理念非常具有颠覆性,它彻底摒弃传统的铜线电气 I/O,将光互连直接集成到计算芯片的封装内部或紧邻位置,使芯片 能够直接通过光信号进行数据处理,如图 6 所示。 图 6 光输入/输出结构 OIO 的优势主要在于消除了板级电气走线瓶颈,能够大大提升 传输带宽,并将延迟降低至纳秒级,能够更好的契合 AI 模型训练的 需求。另外,由于消除了电气走线带来的巨大能量损耗,OIO 将带 来颠覆性的能效提升。 2.3 光交换 2.3.1 光线路交换 OCS 的本质是通过光学器件直接操控光信号的传输路径,实现 输入端口到输出端口的连接。与需要光电转换的传统电交换不同, OCS 全程在光域操作,因此具有协议透明性、超低延迟、高能效等 优势。但 OCS 也存在光学器件累计损耗、稳定与可靠性方面的劣势, 云智算光互连发展报告 另外,OCS 是一种基于端口的光交换技术,导致其扩展能力受限。 目前 OCS 领域的主流技术包括:直接光束偏转(DLBS)、数字 液晶(DLC)和微机电系统(MEMS)。其中,基于 MEMS 的光交换技 术具有大端口、低插损、快速切换和低成本的优势,是目前各厂商 选择的主流技术路线。 MEMS 光交换是一种基于微机电系统的光交叉连接技术。它通过 利用微纳技术制造微小尺寸的光学组件和机械结构,实现光信号的 灵活路由和交叉连接,如图 7 所示。MEMS 光交换是微镜反射型,方 便集成和控制,易于组成光交换阵列,是 MEMS 光交换研究的重点。 微镜阵列芯片是 MEMS 光交换系统中的核心组件,负责在光纤间建立 和断开连接。 图 7 MEMS 微镜原理 OCS 与流量调度系统结合,能够显著提升资源利用效率。目前 国外主要由谷歌主导,谷歌在其自研 TPU 集群中已批量应用 OCS, 自 TPUv4 沿用到今年发布的 TPUv7。每 64 个 TPU 通过电互连组成一 个 cube,cube 间使用 OCS 进行互连,如图 8 所示。在该组网下,通 过 OCS 灵活调整拓扑的能力,隔离故障节点提升可用性,集群可减 少 50 倍停机时间,并通过按需定制拓扑,提升 30%的吞吐量。除此 之外,OCS 在网络成本和网络功耗都有明显收益。 云智算光互连发展报告 图 8 谷歌 TPU 的超节点架构 国内主要由华为主导,目前推出了 DC-OXC 解决方案,其通过上 层的算网协同模块,对底层链路进行流量调度。通过在智算集群等 场景实际测试,在降低延迟、降低功耗以及增加可靠性等方面,取 得了较好的效果。 2.3.2 光分组交换 OPS 是光网络领域的远期技术路线,它描绘了一个带宽效率最 高、灵活性最强的全光网络终极蓝图,其宏伟目标是在光域内,以 单个分组数据作为为最小交换单元,实现全程无须光电转换的存储、 路由和转发,如图 9 所示。但受制于光缓存/同步难题,目前暂未实 现工程化。 图 9 OPS 组成结构 云智算光互连发展报告 2.3.3 光突发交换 OBS 的核心思想是一种折中与优化:它将数据流分割成较大的 突发数据包(Burst),并在传输前先发送一个控制分组来为这个突 发数据包预留网络资源。OBS 最关键的特点是数据在光域传输,而 控制信令在电域处理。但由于缺乏光随机存储器,以及控制平面的 复杂性等原因,该项技术尚未推出商业化产品。 云智算光互连发展报告 3. 智算场景下光互连技术的应用研究 3.1 LPO 在 AIGC 算力网络中的应用 LPO 虽然采用 TIA 和 Driver 芯片替换 DSP,但同时引发了误码 率提高的问题。行业普遍认为,LPO 只适用于特定的短距离应用场 景。例如,数据中心机柜内服务器到交换机的连接,以及数据中心 机柜间的连接等。目前,锐捷网络公司聚焦 AIGC 算力网络场景规划 设计了三款自研 LPO 光模块,满足以下三种网络架构的互连需求, 如图 10 所示。 图 10 锐捷 LPO 模块在三种网络架构下的互连应用 千卡 GPU 集群为 AI 训练和高性能计算提供算力,其内部数据交 互需要高带宽、低延迟的网络互连。LPO 技术在此类场景中的应用 优势主要体现在:能耗降低、成本减少以及良好的可维护性等方面。 以下是千卡 GPU 集群场景下 LPO 模块的典型应用,如图 11 所示。 云智算光互连发展报告 Spine 下行:128*400G 8 2 Leaf 1 … 上行:64*400G 下行:64*400G POD1 POD2 Server 400G 7 1 2 3 4 5 6 7 8 …x64… 1 2 3 4 5 6 7 8 …x64… 12 34 56 78 12 34 56 78 12 34 56 78 12 34 56 78 12 34 56 78 12 34 56 78 12 34 56 78 Server-1 Server-2 Server-3 Server-64 Server-65 Server-66 Server-67 Server-128 12 34 56 78 400G LPO光模块互联 图 11 锐捷 LPO 模块在千卡 GPU 场景下的应用 场景规模为 128 台 AI 服务器,且每台搭载 8 卡 GPU 和 8 个单口 400G 网卡。采用二级组网,Spine 和 Leaf 互连两端可以使用 400G LPO 光模块。每 64 台 GPU 服务器为一个 POD,千卡集群共需 2 个 POD,16 台 Leaf 和 8 台 Spine 互连共需 2048 个 LPO 光模块。按功 耗减低 50%(3.5W)估算,光模块功耗总共下降约 7kW。 3.2 CPO 交换机在智算场景下的应用 CPO 交换机具备高吞吐量、低时延、低能耗等多项技术优势。 如图 12 所示,新华三 CPO 交换机是基于 51.2T 高性能芯片设计的 800G CPO 交换机,最大支持 64 端口 800G 端口,可扩展为 128 * 400G/200G/100G 端口,单 POD 可支持超过 8000 张 400G 网卡,最大 可支持 3.2 万张
| ||
下载文档到本地,方便使用
共 32 页, 还有
1 页可预览,
继续阅读
文档评分

