pdf文档 2025AI供电的未来:重新定义AI 数据中心供电白皮书-英飞凌 VIP文档

14.75 MB 24 页 16 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
AI 供电的未来 重新定义 AI 数据中心供电 Gerald Deboy 博士,英飞凌科技股份公司 PSS 创新实验室院士 Fanny Björk 博士,英飞凌科技股份公司数据中心配电主管 www.infineon.com/wepowerai 2 目录 Adam White 寄语 3 引言 4 一、现代处理器的供电 5 预测一:垂直供电将成为现代处理器的关键技术 5 预测二:服务器主板将采用高压直流供电架构 7 二、AI 服务器机架的供电 12 预测三:AI 服务器机架的功耗将超过 1 兆瓦 12 预测四:AI 的能耗需求将推动电源架的功率等级突破 100 千瓦 13 三、数据中心的整体供电 16 预测五:新一代数据中心的功率需求将迈向吉瓦级规模 16 预测六:配电将从交流系统转向直流微电网 17 预测七:可再生能源将成为满足 AI 数据中心增长能耗需求的关键 19 结论 21 参考文献 23 3 Adam White 寄语 我们正站在一场全新技术革命的起点——这场革命由 人工智能(AI)驱动,并以史无前例的速度向前发展。 自 2022 年底 ChatGPT 发布以来,仅两个月便吸引了 一亿活跃用户,我们的世界由此发生了深刻的变化。 AI 不仅具备改变人类生活方方面面的潜力——无论是 金融服务、数字助理、气候研究,还是其他领域—— 它也正在重塑整个计算市场的格局。然而,这场变革 面临着一个日益突出的挑战:AI 技术不断增长的庞大 的功率需求。这种指数级增长的电能消耗,迫使我们 不断突破创新,去开发能够应对复杂功率转换过程的 先进半导体解决方案。与此同时,随着数据中心从传 统计算任务转向 AI 工作负载,其能源需求也在急剧上 升。为满足这一持续增长的能源需求,未来的数据中 心将经历深刻的架构变革,并面临更高的质量、能效 与热管理要求。而实现这一切,都离不开创新的电源 管理解决方案。 AI 已深深融入我们的生活,它势不可挡,正不断拓展 自身的应用和影响范围。英飞凌始终坚持创新,因为 我们深知保持这一创新势头的重要性。当前,业界已 推出许多优秀的解决方案,充分展现了在应对 AI 系统 供电挑战方面的技术实力。然而,前行的征途不能止 步于此,展望未来,我们仍需面对众多技术挑战,同 时还需要持续提升能效与性能。我们还必须确保为 AI 数据中心提供清洁、可靠的电力。毕竟,没有电力, 就没有 AI。正是这一现实,驱动我们不断推进技术革 新,确保随着 AI 的持续演进,我们为其高效、可靠供 电的解决方案也能同步升级。 在本白皮书中,我们将分享英飞凌对未来 AI 电源管理 发展的若干洞见,探讨架构、质量、效率、热管理以 及能源可及性等方面的变化,将如何塑造这一领域的 未来格局。我们旨在通过分析,帮助读者深入理解这 一持续演进的前沿方向。 借助英飞凌的创新解决方案,迈向更高能效、更具可 持续性的 AI 驱动世界之旅。 Adam White 电源与传感器系统事业部总裁 4 引言 在大型数据中心中,训练日益庞大的 AI 模型需要更强大的计算能力,并将多达 10 万颗处理器聚合成一个虚拟机。 这将带来三个层面的挑战: • 现代处理器的供电:需要应对更高的负载电流和剧烈的瞬态负载阶跃。预计在未来十年,单颗处理器的负载电 流将达到 10,000 安培,是当前水平的 10 倍。 • AI 服务器机架的供电:功率需求将超过 1 兆瓦(MW),是当前最先进水平的 10 倍。 • 数据中心的整体供电:功率需求达到吉瓦(GW)级,需要采取全新的基础设施,并在整个数据中心内采用全新 的配电体系。此外,数据中心作为用电大户,也需具备负载调节能力,并能够为电网提供辅助服务。 本白皮书将探讨当下及未来在“从电网到核心”理念下,为 AI 提供电力的可能情景,并阐述其基础技术概念。 5 一、现代处理器的供电 预测一:垂直供电将成为现代处理器的关键技术 图形处理单元(GPU)以及专用于 AI 负载的处理器(例如,张量处理单元(TPU))正在采用最先进的工艺制程(例 如,台积电的 N4P),以在单一硅片上集成更多的晶体管。通过将两片或多片硅片集成到单一处理器中,可以突 破特定制程下光刻掩膜尺寸的限制,从而打造更大、更强的处理器。 尽管这些 GPU/TPU 的单位面积功耗仅呈温和上升趋势,但随着芯片尺寸的不断增大、供电电压降至约 0.4 V,其总 电流消耗预计将在十年内攀升至 10,000 A。这种极高的电流水平以及对瞬态负载响应的严苛要求,成为电压调节模 块(VRM)在 12 V 典型中间总线电压下为处理器供电时,所面临的最大挑战。 传统的横向供电方式采用分立功率级和独立电感,但在如此高的电流下,不仅占用空间庞大,还会在供电网络(PDN) 中造成显著损耗。因此,未来电能将通过主板,以垂直供电的方式,传递至处理器背面。 6 图 2:VRM 解决方案从分立功率级到背面垂直供电模块演进 图 1 展示了供电方式向垂直供电发展的趋势。 图 1:现代 AI 处理器正通过垂直供电方式供电 背面垂直供电模块将多相降压电路所需的芯片组和电感集成于一体,是实现垂直供电的基本组成部分。 英飞凌提供从分立功率级到双相、四相垂直功率模块的完整产品组合。图 2 展示了这些产品在电流密度这一关键 性能指标方面的演进过程,其中第三代产品的电流密度已达到优异的 2 A/mm 2。 英飞凌将其领先的低压硅基 MOSFET 技术(例如,OptiMOS™ 7 系列)与芯片嵌入封装技术及专利 3D 集成工艺相结 合,在垂直供电方案中实现了前所未有的功率密度和能效表现。 7 图 3:采用集中发电和配电并在服务器主板进行本地功率转换的高压直流架构示例 预测二:服务器主板将采用高压直流供电架构 随着现代 GPU 功耗的持续攀升,以及每个机架中 GPU 集群规模的不断扩大,单机架的功率需求将很快突破 1 兆瓦, 甚至更高。当功率水平达到这一量级时,系统架构必须从既有的 48 V 生态体系,转向高压直流供电。 这种从 48 V 总线架构向 800 V 或 ±400 V 架构的转变,预计将在单机架功率达到 200 千瓦至 250 千瓦时出现。以 48 V 总线架构为例,此时母排需承载 4100 A 至 5200 A 的电流。 展望未来十年后期,数据中心将逐步过渡到集中式发电与配电架构,通过减少转换级数,实现可扩展的新一代高 压直流供电架构。 图 3 展示了基于 800 V DC 的集中发电和高压直流配电的示例。其中,图右为服务器主板。 电子保险丝 / 热插拔功能 未来的服务器主板将直接运行于 800 V 或 ±400 V 电压下,因此,必须引入多项新的功能模块,例如:在服务器主板 插入高压直流总线之前执行预充电,以及在服务器主板从 IT 机架移除时,确保开关及时放电,以避免产生危险电压。 此外,还需要部署电子保险丝功能,以便在发生故障时快速切断电源。这作为一个重要的安全环节,需要部署在 每个服务器主板上。 图 4 展示了基于英飞凌 XDP ™ XDP70x 热插拔控制器与创新型 CoolSiC™ JFET 技术的解决方案。该组合能够在服务 器主板热插入高压直流总线时,实现受控预充电,并实时监测电流,在监测到异常情况时,快速断开连接。 8 图 5:在 300 µF 输入电容下,以线性模式,对服务器主板实现 0 V 至 800 V 的预充电(基于英飞凌 XDP ™控制 IC XDP701 和 1200 V CoolSiC ™ JFET 组合) 图 4:基于电子保险丝 eFuse 和热插拔控制的高压直流服务器主板解决方案 经实验验证,在输入电容为 300 µF 的条件下,可将服务器主板从 0 V 预充电至 800 V。凭借 CoolSiC ™ JFET 技术出 色的热稳定性,可在安全工作区(SOA)内,实现较长时间范围(超过一秒)的线性工作。结果如图 5 所示。 9 图 6:800 V → 12 V 转换器的拓扑结构和布局示意图 在该设计中,磁芯被分成两个对称部分。所有初级和次级 MOSFET 均布置在板顶,以降低液冷热阻。测试结果显示, 峰值效率高达 97.4%,满载效率为 96.6%,性能优异。图 7 展示了实测结果。 此外,还需在服务器主板有限的空间内,将高压直流输入电压转换为低于 1V 的 GPU 供电电压。英飞凌正在研究两 种关键的转换路径:800 V → 54 V 和 800 V → 12 V,作为连接当前服务器主板常用低压域的重要桥梁。在采用三级 架构时,先将 800 V 降至 54 V,再经过中间总线转换器(IBC)和 VRM 功率级或背面垂直供电模块进一步降压,可 以有效降低供电网络(PDN)的损耗,并支持夹层卡解决方案(IBC 和 VRM 级均位于夹层卡上);在采用二级架构 (800 V → 12 V)时,可以省去一个完整的功率转换级,节省了主板的宝贵空间。 800 V → 12 V 功率转换 为了实现从 800 V 到 12 V 的功率转换,英飞凌开发了一款 6 千瓦演示板,功率密度超过 2300 W/in³。该设计采用对 称布局,由两组堆叠式 LLC 变换器组成,并采用矩阵变压器结构。初级侧采用 650 V CoolGaN ™ 技术,次级侧使用 40 V 硅基 OptiMOS ™ 6 系列。PSOC ™ MCU 和 EiceDriver ™栅极驱动器负责提供 PWM 和驱动信号。 图 6 展示了该 800 V → 12 V 转换器的拓扑结构与布局。 10 图 7:输入电压为 800V 时,800 V → 12 V 电源转换器的效率测试结果 图 8:800 V → 50 V 转换器的拓扑结构和布局 800 V → 50 V → 6 V 功率转换 除了上述 800 V → 12 V 方案(需要将高压 IBC 置于处理器附近),英飞凌还探索了另一种组合使用高压和中压 IBC 的方案:先将电压从 800 V 降至 50 V,再降至 6 V。 由于 VRM 级的损耗与输入电压的平方成正比,因此,若以 6 V 而非 12 V 切换这些多相降压转换器,可提升效率, 提高开关频率,从而改善瞬态负载响应,并减少靠近处理器的电容数量。在 800 V → 50 V 级和 VRM 级所获得的效 率提升,可抵消中压 IBC 带来的额外损耗,使整体能效与前一种情景相当,同时提升供电灵活性与瞬态负载响应。 图 8 显示了 800 V → 50 V 转换器的拓扑结构和布局。 11 图 9:800 V → 50 V 转换器的 3 千瓦模块的效率测试结果 图 10:额定功率为 1 千瓦、8:1 转换比的中间总线转换模块的效率测试结果 堆叠式 LLC 变换级在谐振频率下工作,峰值效率高达 98.5%。 随后,中压 IBC 将电压进一步降至 6 V。我们采用混合开关电容转换(HSC)拓扑结构,结合磁能与电容能量传递, 实现高能效和高功率处理能力。英飞凌正在开发一款额定功率为 1 千瓦、固定 8:1 转换比的电源模块,用于将现有 的 48 V/50 V 电压域转换至 6 V 的中间总线。图 10 显示了该模块及其实测效率曲线。 12 二、AI 服务器机架的供电 预测三:AI 服务器机架的功耗将超过 1 兆瓦 在针对拥有万亿级参数的超大规模AI模型进行训练时,需要将数千颗GPU集成在同一台机器中,并以同步模式运行。 机架之间的数据通信通常通过光通信实现,而 IT 机架内部的高速互连则依赖专用处理器,通过铜缆将每个 GPU 与 其他 GPU 相连。由于 IT 机架内部的数据传输速率远高于机架之间,因此,目前的行业趋势是在单个 IT 机架内尽可 能多地集成 GPU。相应地,机架架构也从传统的 IT 托盘式设计,演进为功率密度明显更高的刀片服务器设计。 当单个机架集成多达 72 台刀片服务器时,IT 机架的总功率水平将在十年内突破 1 兆瓦。 在如此高的功率水平下,机架内部空间成为主要的物理限制因素。因此,AI 机架将更专注于 IT 负载与高速通信功能, 而诸如电源模块、电池备用储能单元以及超级电容托盘等附加功能,将被迁移至安装在主机架两侧的侧柜或放置 在附近的辅助机架中。 图 11 展示了这种分离式 IT 机架架构的示例,其中电源模块(PSU)、电池备用单元(BBU)和峰值电流补偿模块(PCS) 均置于侧机架内。 13 图 11:分离式 IT 机架示例 预测四:AI 的能耗需求将推动电源架的功率等级突破 100 千瓦 当IT机架的功率等级接近100 千瓦时,由Open Compute Project[1]所定义的单相电源供电长期以来一直是业界标准。 在过去十多年里,输出功率为 3 千瓦和 5.5 千瓦、输出电压为 48 V 的电源模块一直是主流产品。 基于 240 V 或 277 V 单相交流输入的电源,如今可升级至 12 千瓦,并保持 1U 高度的紧凑尺寸。每个电源架可容纳 6 个电源模块(72 千瓦),每个机架最多可配置 8 个电源架(如图 11 左所示)。这标志着数据中心向 1 兆瓦 IT 机 架迈出了重要一步。对于功率较低的系统(约 160 千瓦),12 千瓦电源模块还能进一步释放 IT 机架空间,为更多 功能模块预留位置。 在这类高功率应用中,功率密度与能效至关重要,12 千瓦 PSU 的设计必须不同于传统的低功率产品。在典型的 20 ms 保持时间要求下,电解电容将占据相当大的空间。因此,必须采用一种去耦缓冲电路或功率脉动缓冲电路,以 便使电容中的能量几乎可以完全释放利用,直至接近 0V。该电路通常位于功率因数校正(PFC)级和后续的隔离式 DC-DC 级之间,其优势在于:即使交流输入出现短暂中断,也能维持 DC-DC 级输入电压的稳定,使 DC-DC 转换器 能够针对更窄的输入电压范围进行优化。此外,功率脉动缓冲电路不仅能吸收瞬态负载阶跃,还能以受控的方式, 在尽量不增加交流功率的情况下,从交流电网对电解电容进行充电。 为了最大限度地提高功率密度和能效,英飞凌在 12 千瓦 PSU 演示板中采用了多电平架构。所有高压部分均使用新 型 400 V CoolSiC™ MOSFET,而次级侧则采用额定电压为 80 V 的 CoolGaN™ HEMT。图 12 展示了该拓扑结构和演示板。 14 图 12:12 千瓦单相电源模块,提供 48 V 直流输出 当单个 IT 机架功率水平提升至 1 兆瓦时,不论是 48 V 电源轨,还是单相电源模块(PSU),都难以在扩展性和可 持续性方面继续满足需求。因此,数据中心将逐步从单相 PSU 转向三相 PSU,在侧柜中直接生成高压直流电(如 图 11 右所示)。 这些交流电源模块直接接入 400 V AC 或 480 V AC 的三相交流电网。当每个电源架配 3 至 4 个 PSU 时,可提供超过 100 千瓦的功率输出,当每个侧柜安装最多 10 个电源架时,IT 机架的供电能力即可达到 1 兆瓦。这一架构将成为 迈向集中式发电与配电(详见下一章“预测六”)的重要过渡阶段。图 13 显示了对应的架构,其中三相 PSU 和电 池备用单元(BBU)共同向高压直流总线(例,如 800V DC)供电。 图 13:分离式 IT 机架结构示意,其通过侧柜中的三相 PSU 和储能单元供电 15 英飞凌针对这一类应用提供了丰富的产品组合,涵盖额定电压分别为 1200 V 和 650 V 的 CoolSiC™ MOSFET 产品组合, 以及适用于多种双电平和三电平拓扑结构的 CoolGaN™ HEMT,以实现更高的能效和功率密度(见图 14)。 图 14:英飞凌针对 400-480 Vac 输入电压, 400 V 或 800 V 输出电压提供的三相 PSU 解决方案概览 在这种架构下,备用电源通常由锂离子电池接入公共高压直流总线提供。如果数据中心对使用锂离子电池有限制, 可采用集中式电池储能系统。同时,通过双转换不间断电源(UPS)(带或不带旁路功能),可以在三相交流配电 架构中应对停电事件。 此外,超级电容托盘可用于应对 GPU 负载的动态变化。另一种方案是在 AC-DC 电源模块内部集成功率脉动缓冲电路, 以在 GPU 负载脉动时,对交流电网进行有效缓冲。 16 三、数据中心的整体供电 预测五:新一代数据中心的功率需求将迈向吉瓦级规模 随着现代 GPU 功耗的不断攀升,以及 AI 计算节点的密集部署,如今新建数据中心的用电需求已达到数百兆瓦级别。 在未来几年内,为满足规模日益庞大的 AI 模型对算力的无限需求,预计将出现专门的“AI 工厂”。在同一数据中 心园区内,此类设施的用电量将达到吉瓦级,甚至可能超过数吉瓦。多家超大规模数据中心运营商已发布了相关 建设计划 [2,3]。在训练过程中,大型 GPU 集群的负载剧烈波动,所引起的电力供应与电网稳定性问题,成为确保 这些数据中心安全运行的重大挑战。要应对这些挑战,必须在多级功率转换环节上,实施瞬态负载的主动缓冲。 此外,在设施层面部署大型电池储能系统(BESS)也将成为必需措施,以确保整个数据中心保持近乎恒定的负载 曲线。 英飞凌致力于沿着整个功率转换链路,支持超大规模数据中心运营商及系统供应商,共同实现可持续、高效且具 经济可行性的电力解决方案。功率半导体正是这些工作的核心所在,其目标包括: 17 • 将任意能源形式转换为处理核心电压所需的负载电流 • 构建可扩展的功率架构,以支撑从兆瓦级到吉瓦级的系统部署 • 通过提升整个电能传输链路的能效,最大限度地降低运营成本 • 在各功率转换级,针对最苛刻的负载波动,确保系统可靠性 英飞凌通过丰富的产品组合来支持上述目标,覆盖从 400 V 至 3.3 kV 各类封装形式的 CoolSiC™ MOSFET、用于保护 电路的 CoolSiC™ JFET,到电压等级为 80 V 至 650 V 的超高速开关 GaN HEMT,再到能够向处理器传输数千安培电流 的先进硅基解决方案(例如,IBC 和背面垂直电压调节模块)。这些产品在苛刻要求下亦能保持高品质与高可靠性, 是确保吉瓦级数据中心实现无障碍稳定运行的关键基础。 预测六:配电将从交流系统转向直流微电网 要在 AI 数据中心实现极致能效,必须对整个配电链——从发电到用电——进行全面优化。当功率需求逼近吉瓦级时, 就必须建立一种全新的配电基础设施,以满足能效与运维成本需求。直流微电网被普遍认为是最有潜力塑造未来 AI 数据中心格局的架构方案,它代表着对数据中心基础设施内部电能管理方式的根本性重构。 图 15:面向 AI 数据中心能耗增长的电力架构演变示意。无论是 DC-DC、AC-DC 还是 DC-AC,英飞凌的功率半导体解决方案均能在每个功率级提升能效 在这种情景中,电能将由中压交流电网(10-35 kV 交流电)直接集中生成,并以高压直流形式分配,从而在能量传 输路径中消除传统架构中的 AC-DC 电源模块。因此,在服务器机架内部,只需执行 DC-DC 转换,即可实现更高效、 更紧凑的功率转换,甚至可以如“预测二”中所
下载文档到本地,方便使用
共 24 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.