智算无界:AIDC的超越和重构-上海贝尔
9.31 MB
38 页
12 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
1.1 智算新基建:全球竞争与市场爆发 近年来,以生成式人工智能为代表的新一代人工智能技术加速创新,成为各国抢占科技革命与产业革命 优势地位的技术制高点。2024年3月,中国政府工作报告提出:“深化大数据、人工智能等研发应用,开展 ‘人工智能+’行动,打造具有国际竞争力的数字产业集群“。人工智能将在推动产业升级、促进新质生产 力加快形成等方面发挥重要作用。2025年1月,美国政府宣布OpenAI、软银和甲骨文三家企业将在美国建设 支持AI发展的基础设施,即“星际之门”。该项目的初始投资为1000亿美元,并计划在未来4年内扩展至 5000亿美元。从全球范围看,以人工智能为代表的ICT行业已成为中美博弈的“技术主权战场”,双方在标 准制定、核心供应链、数字规则(数据跨境/网络安全)等维度激烈竞争,全球ICT产业技术生态与市场格局 正在加速重构。 生成式人工智能基于海量数据训练、推理生成新的输出,并能以文本、音频和图像等形式创建新内容。 智算中心是支持生成式AI工作负载的新型数据计算中心,基于AI计算架构,提供AI应用所需算力服务、数据 服务和算法服务的算力基础设施,它融合高性能计算设备、高速网络以及先进的软件系统,为人工智能训练 和推理提供高效、稳定的计算环境。据测算,2023年全球生成式AI市场规模,包括硬件、软件以及服务等, 达675亿美元,到2028年有望增长到5160亿美元,复合年化增长率达50.2%;2023年,中国生成式AI市场 规模为1200亿人民币,到2028年将超过5000亿人民币(图1-1)。 据中国信通院测算,2023年全球计算设备算力总规模为1397EFlops,其中通用算力为497EFlops,智 能算力(换算为FP32)为875EFlops,占总算力比例为63%。未来五年,全球算力规模仍将以超过50%速度 增长,至2030年全球算力将超过16ZFlops,智算占比超过90%。2023年,中国通算规模59EFLOPS,未来 至2028年将以17.3%的年增长率达132EFLOPS;同期,中国2023年智算规模为414EFLOPS,未来将高速增 长到2028年1436EFLOPS(图1-2)。全球算力基础设施高速发展,而以支持AI/LLM为目标构建的新型智算 中心成为数字新基建的重要底座。 趋势洞察 01 图1-1 生成式人工智能市场 趋势洞察 02 随着大模型训练参数以及GPU集群规模的不断提升,智算中心网络组网规模持续扩展,接入速率从 200Gbps升级至400Gbps/800Gbps乃至1.6Tbps,无损、低时延性能要求严格,推动智算中心网络以及智 算中心间跨区域网络的高速发展建设。未来五年,全球及中国智算中心以太网交换机将以36% CAGR持续快 速增长, 全球交换机发货量从15.6百万端口爆发增长至114.9百万端口,中国AI以太网交换机占比全球总量三 分之一(图1-3)。预计2025年中国智算中心总规模1356亿元,网络设备市场约475亿元,其中,800Gbps 端口高速增长,白盒交换机占比持续上升,主流互联网公司大量采用白盒交换机降低网络建设成本(图1-4)。 图1-2 中国算力规模 图1-3 智算中心市场结构和智算中心交换机市场 图1-4 智算中心800G端口和白盒交换机市场 近期,DeepSeek的出现显著提升了算法效率,其开源免费策略使中小企业和个人开发者可获取高性能 模型,极大降低AI应用门槛。在制造、医疗、金融等领域,深度学习驱动的预测性维护、医学影像分析、量 化交易等应用,显著提升行业效率。在物流路径规划、电网调度等场景中,深度强化学习可实时响应环境变 化,优化资源分配。在个性化服务领域,通过用户行为数据的深度挖掘,实现千人千面的推荐系统、广告投 放等,提升用户体验与商业价值。DeepSeek算法与芯片深度适配,不仅降低对高端GPU的依赖,也推动算 力供应链自主化。高效的算法一方面减缓了AI训练的算力需求,另一方面AI应用的普及导致AI训练与推理的 侧重点发生转变,预计未来几年推理算力占比将远超训练部分。 1.2 技术破局:从GPU集群到分布式协同一体 建设和运营智算中心需要巨大的资本投入,包括购买昂贵的AI芯片、建设高密度机房等。AI工作负载对 网络带宽和存储性能有极高的要求。AIDC需要优化网络架构,例如采用高吞吐量的以太网或InfiniBand,并 部署高速、大容量的存储系统。互联网公司通常具备强大的云计算、大数据、人工智能等核心技术积累和研 发实力,能够快速迭代和推出创新性的AI服务和解决方案。许多互联网巨头具备自研硬件(如AI芯片)和软 件的能力,可以实现软硬件深度协同优化,提升智算中心的性能和效率。电信运营商拥有覆盖全国甚至全球 的骨干网络和接入网络,这为智算中心互联提供了得天独厚的网络优势,可以为用户提供低延迟、高带宽的 连接服务,尤其是在边缘计算场景下更具优势。 AI的发展依靠算力、算法和数据。OpenAI在2020年提出Scaling Laws(尺度法则)。对于基于trans- former的大模型而言,在AI训练中有以下结论:1)模型规模要大:即增加模型参数量、数据集和计算量, 就可以得到性能更优的模型。2)模型参数量、数据集以及计算量之间存在幂律关系。3)随着模型规模增 加,模型会出现涌现特质——未预期到的新能力,推动模型性能提升。尺度法则正在驱动大模型硬件部署走 向更大集群。早期AI训练网络互联规模均在千卡左右,随着AI大语言模型的参数、训练量指数级提升,算力 卡互联规模从千卡提升到万卡,目前行业已经开始部署10 万卡集群。 在云计算阶段,云服务器主要是CPU服务器,每台服务器配置1-2颗CPU芯片即可。AI工作负载分为两 大类 — AI训练以及AI推理。人工智能训练过程将首先创建AI模型。它包括数据集合,模型选择,模型训练, 模型评估,模型部署和模型监控,涉及密集使用GPU。模型开发完成后启动推理业务,为最终用户提供业务 支持或与模型交互。因此大模型的训练基于更大规模的GPU并行计算,单服务器内部署GPU数量提升至4颗、 8颗甚至更多,并通过纵向扩展的方式实现更多GPU互联形成超节点。当前英伟达超节点Scale Up互联可达 576颗GPU。 趋势洞察 03 趋势洞察 04 智算网络在确保AI训练和推理方面发挥着关键作用。它包括设计良好的后端网络和前端网络架构以满足 AI 严格要求的工作负载,其特点包括高可靠性、高速、高容量、低延迟和无损。后端网络用于互连高价值计 算密集型AI训练、AI推理所需的GPU和其他高性能计算(HPC)工作负载,前端网络支持连接对于AI工作负 载、通用工作负载(非AI计算)以及AI工作负载的管理。多个智算中心通过具备高通量的智算网关互联,并 经OTN 全光网络提供高品质的大带宽连接。 近年来随着数字中国、东数西算等国家战略的实施,东数西存、东数西训、东数西渲等场景对海量数据 跨广域网数据传输需求日益凸显。随着分布式AI的发展,跨智算中心互联等广域数据迁移场景中数据传输的 规模越来越大,AI对网络吞吐性能要求越来越高,必须建设分布式一体化算力网络(Scale Outside)实现算 力调度。 当前广域网带宽从100Gbps逐渐发展到400Gbps、800Gbps甚至1.6Tbps,但CPU算力增速已经 远低于网络带宽的增速,网络带宽的剧增对业务发送端和接收端服务器的数据收发处理能力提出了更高要 求。在传统网络中,数据从源系统内存复制到网络堆栈,经过网络发送到目的地,接收端经多个步骤将数据 复制到目标系统内存中,因此基于CPU算力的TCP/IP协议栈无法满足高速网络收发性能要求,成为广域高吞 吐数据传输性能提升的瓶颈。 RDMA可以通过广域网络实现高速、低时延数据传输。RDMA技术使用内存零拷贝、内核旁路等技术, 将网络协议栈全卸载到网卡处理,不依赖CPU算力即可实现高性能数据收发处理,是海量数据广域高吞吐传 输的关键技术。面向RDMA的广域网技术要求包括两类:一是满足承载不同RDMA协议的技术要求,二是满 足海量数据传输需求的高带宽、大象流负载均衡、精细化流控等技术要求。借助RDMA技术,通过分布式智 算中心网络实现区域内多智算中心协同计算,可以满足更大规模的算力需求。 总而言之,算力的需求正在快速增长。由于AIGC的出现,大模型的训练和推理导致智算超越了通算。智 算中心节点规模越来越大,对网络性能(吞吐和时延)要求越来越高,其发展趋势是从scale up到scale out,直至scale outside。出于成本的考量,800Gbps及以上速率白盒交换机将在智算中心网络中占据更 重要的地位。 随着人工智能技术的飞速发展,特别是大模型参数万亿/十万亿级的突破以及大模型应用逐渐在社会、生产、 生活中的广泛深入,智算/超算中心作为支撑大模型训练和推理的基础设施和核心载体,其重要性日益凸显。 2.1 核心挑战:超低时延、无损传输与能耗困局 智算中心网络作为连接海量计算资源(万卡/十万卡级)的关键组成部分,其性能直接影响到大模型训练 的巨量数据、分布计算以及并行同步的效率和效果。然而,当前智算中心网络在大规模组网架构、低时延无 损网络技术、高吞吐负载均衡以及智算中心间高速无损互联等方面仍面临诸多技术挑战。 1)智算网络面临的挑战 组网规模与复杂度激增 大模型训练依赖数千甚至数万张GPU的协同计算,例如Llama3-70B模型在1024个GPU上训练时,单 epoch产生的网络流量高达85EB。传统数据中心网络难以承载如此庞大的东西向流量,导致网络拓扑设计复 杂度呈指数级上升。组网规模的扩大还引发了负载均衡难题,传统ECMP(等价多路径路由)算法在“少流 大流”场景下易引发链路拥塞,使网络有效吞吐量骤降至理论值的10%-60%。 超高带宽与低时延需求 大模型训练中,GPU间梯度同步和中间激活值传递需满足微秒级时延要求。以InfiniBand和RoCEv2为代 表的RDMA技术虽能将应用层时延降至5微秒,但在万卡集群中仍面临瓶颈。例如,在GPT-3训练中,通信 耗时占比高达20%,而万亿参数模型中这一比例可能飙升至50%。此外,单端口带宽需支持数百Gbps甚至 Tbps级别,以应对每秒数TB的数据传输需求。 网络稳定性与容错能力 大模型训练周期长达数月,任何网络中断都可能导致任务回滚甚至重训。例如,微软超算中心训练 GPT-3消耗19万度电,若因网络故障中断,将造成巨大资源浪费。智算网络需具备毫秒级故障检测与自动恢 复能力,同时通过冗余设计和快速重路由机制保障训练连续性。 自动化部署与配置管理 智算网络涉及数万节点和百万级参数配置,人工调优效率低下且易出错。例如,自适应路由方案需动态 感知全局拥塞状态,而传统逐任务调优仅能实现70%的有效吞吐。自动化部署需解决多厂商设备兼容性、配 置策略一致性等问题。 智算网络核心技术 05 智算网络核心技术 06 能效与成本优化 智算中心单柜能耗已达50kW,训练GPT-3一次消耗19万度电,间接排放二氧化碳超105吨。在万卡集 群中,网络设备功耗占比可达20%-30%,需通过光电融合交换、低功耗协议栈等技术降低能耗。 2)智算网络关键能力要求 超低时延与高带宽 • 技术路径:采用RDMA技术绕过GPU内核协议栈,结合InfiniBand、RoCEv2优化,如拥塞控制、流 量调度以及端网协同等机制,以及硬件低时延(交换机、RDMA网卡)和直连拓扑等技术,降低端 到端的静态时延(转发及传输)和动态时延(拥塞、排队和重传等)。 • 带宽需求:单端口带宽需支持400Gbps以上,向800G及1.6T演进,节点间总带宽需与GPU数量成 正比,例如万卡集群需数百Tbps级网络容量。 确定性负载均衡 • 全局路由优化:通过网络级负载均衡等技术,基于拓扑信息实现确定性路径分配,避免传统ECMP的 哈希冲突问题。 • 动态负载感知:结合INT(带内网络遥测)技术实时监测链路状态,动态调整流量分布,支持基于流 量的动态路由。 • 容错机制:采用多路径冗余设计,确保单链路故障时训练任务可无缝切换至备用路径。 高可扩展性与灵活性 • 拓扑创新:从传统Spine-Leaf架构向Dragonfly、3D Torus等新型拓扑演进,提升网络带宽、降低 时延并增强可扩展性。 • 光电融合交换:引入光交换技术,将波长作为调度单元,降低时延并提升带宽利用率,并支持训练 任务的动态拓扑重构,简化网络的增量扩展。 智能化运维与管理 • 自动化部署:基于意图和AI驱动,通过网络控制器实现自动的网络规划、动态路由以及配置策略 的统一下发。 • 故障预测与自愈:结合AI算法分析网络流量模式,提前识别潜在拥塞点并规避实现自愈。 安全与隐私保护 • 数据加密:在传输层采用TLS 或MACsec协议,防止中间人攻击。 • 访问控制:基于零信任架构实现细粒度权限管理。 2.2 技术体系重构:全光互联+AI原生网络颠覆传统架构 1)智算网络技术体系 图2-1是智算中心组网的逻辑架构和物理架构。智算中心逻辑上分为AI计算集群区、通用计算区、存储区 以及管理区,在网络层面,划分为参数面、样本面、业务面及管理面四个网络平面。参数面网络承担AI训练 和推理的模型参数的同步与聚合(如梯度交换),需满足超高吞吐、超低时延和高可靠性,通常采用RDMA (如RoCEv2或InfiniBand)和无损组网技术,以支持大规模分布式训练。样本面网络,用于传输训练所需的 原始数据(如多模态样本)和预处理后的中间数据,常通过高速NAS或分布式存储协议实现,需处理海量小 文件并发读写,强调高带宽存储访问和低延迟,由无损网络构建。业务面网络,承担系统业务调度与带内管 理流量,采用多层CLOS组网,通常部署为TCP/IP有损网络。几类网络通过逻辑或物理隔离,确保智算中心 高效协同,同时降低跨流量干扰。 为满足智算中心内部网络超大规模、超高吞吐、超低时延、超高可靠性的性能需求,构建智算网络的技 术体系如图2-2所示,包括智算网络基础设施层、拥塞控制层、流量调度层、网络协议层和集合通信层以及高 可靠性保障和智能化运维等功能模块。 基础设施层提供智算中心硬件层面的网络加速与互联能力,支撑上层协议与调度策略。其包括支持IB或 RoCE的网络交换机、端侧的智能网卡DPU以及服务器内GPU卡间互联的总线等,其中,依托光传输高速 率、低时延、低能耗和低成本的优点,光电融合正成为智算中心内从设备到网络架构的重要演进趋势,包括 OCS光交换机、光电合封CPO交换机、高速光模块和光输入输出OIO等技术。 图2-1 AI组网逻辑架构和物理架构 智算网络核心技术 07 智算网络的互联包括机内互联、机间互联和中心间互联等不同形态,网络协议层定义从芯片级到DC网络 及广域网的互联协议与架构,支撑数据在各种复杂网络中的高效传输。机内互联实现CPU-GPU、GPU-GPU 间的一致性开放互联,带宽达TB/s级,主流标准是NvLink和PCIe。目前,国内相关产业联盟正积极自主创新 全向智感互联OISA技术,Gen1支持800GB/s,相关标准和芯片已发布;智算中心网络主要传输协议是IB和 RoCEv2,这两者都是基于RDMA旁路卸载低时延技术。面对超大规模智算集群网络的更高要求,基于 RoCEv2进一步技术演进,中国移动提出全调度以太网(GSE)技术架构,超以太网联盟(UEC)提出新一代 UET传输协议,业界还创新发展分布式解耦DDC新架构,同时,阿里云和中科院计算所等开源发布高通量以 太网ETH+。这些创新增强了RoCE能力,媲美或缩小与InfiniBand性能差距;中心间互联指的是城域内多个 数据中心之间的互联组成一个大的集群,实现智算算力资源整合,这个距离一般在100公里左右,中国电信 基于800G C+L技术和长距RDMA无损技术,实现了120公里、千亿参数大模型的分布式集群训练,性能达到 集中训练的95%以上。 拥塞控制层和流量调度层是零丢包无损智算网络的核心控制中枢,拥塞控制层实时检测网络拥塞状态并 采取控制措施如暂停或者降低流量发送速度等,防止数据的丢失、堆积和网络拥塞;流量调度层全局感知、 调度,利用各种粒度以及多路径喷洒的负载均衡机制,优化网络资源分配,避免拥塞并提升链路利用率。其 中,利用AI对网络流量的感知、预测以及对拥塞控制和流量调度算法的优化,成为智算网络创新的重点方向之一。 集合通信层作为分布式训练的通信基石,承上启下提供大模型预训练的网络集合通信操作,主要为All Reduce、All Gather和Broadcast等,通过融合计算与通信、梯度压缩等技术,减少通信开销,提供高效数 据聚合与同步能力,提升大规模集群训练效率。 图2-2 智算网络技术体系 智算网络核心技术 08 智算网络的高可靠性通过多层冗余与快速故障恢复机制,确保业务连续性。包括采用双平面架构、双上 联链路、多路径备份及设备级冗余等,避免单点故障导致业务中断;故障快速收敛,实现毫秒级故障检测, 结合高可靠网络机制FRR(快速重路由)技术,完成ms级的路由切换,保障关键业务(如分布式训练)无感 知恢复。 智能化运维通过数据驱动、AI技术与自动化工具链,实现网络状态的实时监控、预测性维护与闭环自 愈。包括AI驱动的网络规划、动态路由等;通过自动化部署降低集群配置时间,提高网络管理效率;通过带 内遥测(INT)与自动化采集技术,构建全链路数字孪生;通过AI驱动故障预测、根因分析以及自愈动作闭环等。 2)智算网络演进与创新 随着超大规模智算集群建设的新需求以及技术创新的迭代进步,智算网络技术从硬件基础设施到网络架 构和协议,到网络无损和流量控制等,持续快速演进。根据业界的发展状态和趋势,如图2-4,规划梳理了其 大致的技术发展脉络: 其中,重点的技术创新和演进归纳为如下六大发展方向: 全光化连接 • 光接口将进一步从400G/800G升级到1.6T、3.2T; • 基于芯片出光技术的CPO硅光交换机逐步规模商用; • 光电融合,LPO光模块和OIO技术成熟商用。 图2-3 智算网络技术全景 智算网络核心技术 09 新型传输协议 • 新型传输协议如GSE、UET和DDC等标准发布商用,进一步优化RoCE v2的网络性能; • 新型网络协议的生态建设、兼容融通。 超大规模组网架构 • 直连架构如DragonFly、3D Torus等将越来越多投入部署,支持超大规模算力集群组网; • OCS光电混合架构,实现吞吐量提升以及Capex和能耗的下降。 数据驱动、多粒度/多层次的网络控制机制 • 基于遥测数据驱动、端网协同和信用授权的主动预防式拥塞控制技术将成为高性能无损智算网络的主流; • 逐流、逐包和信元多粒度均衡以及本地/全局的层次化调度,提供流量调度的全面解决方案。 AI原生赋能 • 网络与AI原生融合,全栈赋能智算网络,如流量模型、算法优化等成为性能优化的关键,也是差异 化竞争的重点; • 自动化、智能化的算网一体化运维及服务开放。 交换容量翻倍 • 交换芯片每两年容量翻倍,从目前的51.2T,快速增长到102.4T及以上。 图2-
| ||
下载文档到本地,方便使用
共 38 页, 还有
2 页可预览,
继续阅读
文档评分


北斗时空(上海)智算中心项目方案(44页 PPT)