pdf文档 智能算网_AI Fabric2_0_研究报告-中国信通院&华为 VIP文档

2.72 MB 50 页 19 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
智能算网(AI Fabric 2.0) 研究报告 2025年9月 编制说明 01 02 03 目录 前言 01 数据中心网络发展趋势与挑战 02 09 03 11 04 AI 网元 4.1.1 4.1 11 11 12 数据中心网络产业发展趋势 2.1 2.2 通算数据中心网络发展趋势与挑战 2.3 智算数据中心网络发展趋势与挑战 05 06 03 数据中心网络代际演进 AI Fabric 2.0 关键技术 绿色超宽 4.1.2 高速光互联 4.1.3 内生安全 15 4.1.4 智能遥测 16 4.2 18 AI联接 4.2.1 18 18 新型网络架构 4.2.1.1 多平面组网技术 4.2.1.2 对等组网技术 20 4.2.2 网络级负载均衡技术 23 4.1.5 AI交换机 17 4.2.2.1 流级负载均衡技术 4.2.2.2 逐包负载均衡技术 24 23 目录 4.2.3 拥塞控制技术 26 4.2.3.1 端网协同拥塞控制技术 4.2.3.2 FlexBuffer拥塞控制技术 28 26 4.2.3.3 拉远训练精准流控技术 29 4.2.3.4 AI ECN 2.0技术 30 4.2.4 在网计算技术 31 4.2.5 在网存储技术 31 4.2.6 高稳韧性技术 33 4.2.6.1 故障恢复技术 4.2.6.2 闪启技术 36 33 4.2.6.3 光链路检测技术 37 4.3 AI大脑 41 4.3.1 仿真验证/孪生仿真 41 4.3.2 自动化Agent 42 4.3.3 故障Agent 42 4.3.4 网维Copilot 43 45 05 总结和展望 4.2.6.3 网络互联冗余 39 编制说明 本研究报告在撰写过程中得到了多家单位的大力支持,在此特别感谢以下顾问专家、 参编单位和参编人员: 顾问专家(排名不分先后): 中国信息通信研究院云计算与大数据研究所所长 何宝宏 华为数据通信产品线数据中心网络领域总裁 王武伟 参编单位(排名不分先后): 华为技术有限公司、中国信息通信研究院(云大所) 参编人员(排名不分先后): 郭亮、王少鹏、王建兵、钱骁、李建高、张白、李军、韩涛、吴圣伟、陈太尚、魏智 杰、耿煜、屈飞园、赵笑可、李久勇、李杰、汪若虚、管紫轩、侯延祥、温华锋、陈龙、 焦雪松、许建、吴洋、胡秀丽、赵科学、张力、李晨飞 1 产业数字化的快速发展推动了数据中心的演进,数据中心网络的发展经历了三 个主要阶段:虚拟化阶段、云化应用阶段和算力服务化阶段。 在虚拟化阶段和云化应用阶段,数据中心为办公和生产系统提供虚拟化和云化 基础设施,数据中心网络采用传统以太网技术用于支撑数据的集中管理以及计算和 存储资源的池化应用。发展到算力服务化阶段,随着高性能存储、超算中心高性能 互联和AI算网的引入,数据中心网络需要提供更高带宽、更低时延以及更高可靠性。 然而,传统以太网技术无法满足要求,导致数据中心高性能存储选择FC专网承载, 超算中心高性能互联则通过IB专网承载,而AI算网则通过增强的以太网技术承载。 这种三种网络技术并存大大增加了数据中心网络的管理运维复杂度和成本。 与此同时,计算技术的广泛应用和数据中心对以太网交换需求的显著增长,推 动了以太技术的快速发展。随着400GE以太技术的商用和800GE以太标准的发布, 以太网技术不仅在带宽上超越了IB网络,无损以太网技术也逐渐成熟,为高性能网 络向无损以太演进奠定了基础。 超融合以太以实现数据中心网络融合为目标,将通用计算、存储、高性能计算 统一承载在0丢包以太网技术栈上,实现从三张网到一张网的融合部署,统一网络架 构,推动无损网络向超融合网络架构演进,实现算网融合。 在当前数字化浪潮席卷全球、AI应用呈指数级快速增长的时代背景下,数据中 心网络作为算力承载与数据流通的关键枢纽,其性能优劣直接决定了企业数字化转 型与智能化创新的成败。基于对这一行业痛点的深刻洞察,以及推动 AI 产业生态良 性发展的使命感,我们精心筹备并推出这份《智能算网(AI Fabric 2.0)研究报告》 (下面简称AI Fabric 2.0)。 相对于传统数据中心网络,AI Fabric 2.0不仅是技术上的迭代升级,更是从理 念到架构、从技术到应用的全面革新,是对重新定义了AI时代数据中心网络的价值 范式。 前言 1 2 数据中心网络发展趋势与挑战 随着数字经济的加速发展,人工智能、大数据、云计算、区块链等新一代信息技术已 成为社会生产力的关键支撑,尤其是以GPT-4、Llama和DeepSeek为代表的大语言模 型(Large Language Models, LLMs)在人工智能领域取得突破性进展,引发了对算力 资源前所未有的需求。 在数字经济加速发展的背景下,算力已成为新型基础设施的重要支撑,是推动经济社 会高质量发展的核心驱动力。作为数字经济的关键组成和引领性领域,算力正加快成为培育 新质生产力、赋能产业升级的重要引擎。全球范围内,各国围绕算力展开了激烈竞争,纷纷 通过政策强化算力产业的引导,以抢占数字经济发展的制高点。 例如,美国、欧盟等均已将算力网络纳入国家数字基础设施建设规划。2019年11月, 美国发布《国家战略性计算计划》,提出开发、拓展并提升国家的计算基础设施和生态系统。 2020年9月,欧盟对“欧洲高性能计算共同计划”进行了升级,重点发展下一代超级计算, 强化欧洲数字主权。2023年,欧盟在《2030 年数字十年政策方案》也提出"加强欧盟范围 内传输、 计算和数据基础设施建设”, 以实现欧盟2030年数字化转型的共同目标。此外, 沙特制定了《沙特愿景2030》战略,旨在发展高性能计算和人工智能技术,提高在全球竞 争力。 我国也在持续强化算力产业政策引导,统筹通用算力、智能算力和超级算力,为网络 强国和数字中国建设筑牢数字基座。2021年3月,“十四五”规划首次提出“全国一体化 大数据中心体系”,建设E级与10E级超算中心;同年5月,国家发改委等四部委联合发布 《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出布局全国算力网络枢 纽节点,启动实施“东数西算”工程。2021年7月,工业和信息化部发布《新型数据中心 发展三年行动计划(2021-2023)》,提出构建以新型数据中心为核心的智能算力生态体 系,构建具备高技术、高算力、高能效、高安全特征的新型算力基础设施。2023年10月六 部委印发《算力基础设施高质量发展行动计划》(工信部联通信〔2023〕180号),提出 2025年算力规模超过300EFLOPS(每秒浮点运算次数),智能算力占比35% 的目标, 2.1 数据中心网络产业发展趋势 2 3 并阐述了算力内网络高性能传输调度要求,以及无损网络技术应用要求。数据中心 网络连接算力,其性能直接决定了整个数据中心的实际算力水平。以大模型训练为 例,需要同时协调数千张甚至数万张算力卡资源,数据吞吐量成为AI计算的关键瓶 颈,需要高效的数据流水线支持,对网络的带宽、时延和可靠性都提出了极高要求。 因此,要提升数据中心算力服务能力,就必须进一步提升数据中心网络性能。根据 《中国综合算力指数(2024年)》报告,计算、存储和网络是算力最重要的组成 部分,在数字经济发展新时期,需要更加关注构建集群算力、存力和运力于一体的 数据中心。 4 2.2 通算数据中心网络发展趋势与挑战 根据中国人民银行发布的金融行业标准《金融数据中心容灾建设指引》(JR/T 0264—2024),通用计算网络容灾正在从“备份可用”向“智能韧性”升级。这一指引 不仅提升了对灾难恢复能力,更是金融等行业在通用计算核心业务与数据中心发展理念上 的重大转折。在央行《指引》的推动下,金融行业的容灾体系正在加速变革,而政务、泛 互联网等领域的通算核心业务也在共同推动数据中心网络进入颠覆性重构期。 未来十年,数据中心的核心将发生根本性变化,从“异地容灾预防灾难”向“极端容 灾预防战争”演进。以国内某大型银行为例,其业务架构从“业务主备、数据灾备”向 “业务多活、数据多活”持续演进,这将推动通算数据中心服务器数量增长10倍,单个数 据中心向“十万级”集约化建设迈进。预计在未来10年内,国内大行将率先在内蒙古、西 安、成渝等地分阶段建设大型数据中心,最终建成50万甚至百万服务器级别的“多地多中 心”数据中心架构,这一趋势将给数据中心的网络架构和运维带来新的变化和挑战。 1)核心演变:从“孤岛保障”走向全局智慧 传统数据中心网络是维系单一计算资源池运作的静态管道,其主要功能是保障计算与存 储之间的基本连接与稳定运行。然而,伴随业务多活、数据多活(双活/多活)架构的深入应 用,网络角色正重构为连接全国乃至全球分布式计算资源的“神经中枢”。这一中枢需实时 掌握所有业务组件的分布状态,并依据负载、灾害风险与延迟感知自主调整流量路径。它不 再仅仅是通用计算资源的连接者,而是智能调度各资源池承载能力的核心大脑,确保客户各 类核心业务在任意位置发生,都能由最优计算节点响应处理。这就要求异地数据中心间具备 全局流量调度能力,可根据链路延迟变化动态切换支付结算类关键业务路径,实现用户“零 感知”切换。 2)超大规模与智能韧性协同演进挑战加剧 伴随通用计算服务器迈向50万乃至百万级规模,单数据中心网络的物理规模与逻辑复杂 性激增。传统依赖人工策略管理的模式已无法满足需求。带宽对等化、毫秒级切换等硬性要 求,迫使网络架构向深度智能化演进: 5 意图驱动网络(IDN)与AI融合:AI的应用将网络运维从故障后的辅助诊断扩展到运 行风险预测和优化。运维系统将基于对业务意图的理解(如“支付交易必须在50毫秒内返 回结果”)和实时网络状态结合,自主计算最优路径,并自动执行调整,无需人工干预。 同时,借助AI技术,在网络变更或故障处理时,能够实现智能化处置,真正迈向“无人值 守”数据中心。 性能极限与新协议普及:多活架构下,数据中心间海量数据同步是关键性能瓶颈。低 延迟、高带宽的RDMA(如RoCEv2)将普遍应用于金融核心交易与关键数据库同步环 境,对无损以太网能力提出严峻挑战。此外,传统Spine-Leaf的CLOS架构是否适用超 大规模的数据中心,如何应对多POD间的大规模流量灵活调度,也将面临新的挑战。 “战争级”韧性催生容灾与加密升级:为应对地质灾害及冲突破坏,如何支撑数据中 心网络“中枢”在极端环境下的通信能力成为关键瓶颈。网络需要基于智能故障感知恢复, 助力网络常稳业务永续。同时,为保障跨楼宇、跨DC此类高速链路互联场景的传输安全, 通信安全等相关技术也将加速在高韧性DC架构中落地。 未来十年数据中心网络将彻底超越传统连接的定位,真正成为驱动金融、政府等业 务韧性、智能与效能变革的根基性力量。其成功演进绝非单纯的技术升级,更将成为行业 在数字经济时代制胜的关键能力基石。谁能率先完成网络从“业务保障通道”向“智能韧 性运营枢纽”的跃迁,谁就将在未来激烈的数字化和智能化竞争中占据先机。 2.3 智算数据中心网络发展趋势与挑战 AI产业正迎来前所未有的快速发展期,呈现出几大显著趋势变化。 1)大模型规模指数级增长,头部OTT大模型持续摸高,大模型训练带动网络发展 模型性能竞赛白热化: 2025年上半年,OpenAI的GPT-4.5、Google的Gemini 2.5 Pro、Anthropic的Claude 4等模型在复杂推断能力上持续突破。例如,Gemini 2.5 Pro在数学推理(2025高考数学卷得分140分)和多模态理解(支持100万令牌上下文窗 口)上达到新高度,而Claude 4 Opus通过混合推断模式实现“快速响应”与“深度反 思”的动态平衡。 模型摸高驱动集群规模走向10万卡,代际快速演进: 北美头部互联网客户在智算领域 的投资保持60%增速,例如Meta在2025年持续扩大英伟达H100 GPU集群,规模超35万 卡,网络代际向800GE快速演进;“星际之门”总投资超1150亿美元,2025年底建设超 6 30万卡GB200集群。国内客户也在积极跟进,例如字节2025年在智算领域投资1600亿 元人民币,持续AGI(通用人工智能)研发;阿里发布Qwen2.5-Max,未来3年投资 3800亿投入AI和云基础设施。 模型尺寸从最初的数十亿参数发展到如今的万亿参数级别,带动算力规模呈现爆炸式 增长,相应的网络规模和带宽需求也随之急剧增长。这直接推动了网络速率从Gb级别迈 向400GE/800GE/1.6TE高速时代,对网络延迟、吞吐量和可扩展性带来了严峻挑战。 为了应对这些挑战,网络架构必须进行根本性变革,传统的多层网络结构由于转发延迟高、 配置复杂等问题已难以满足AI流量的需求,扁平化的网络架构成为必然选择。 2)推理业务快速崛起,并呈现多样化发展,带动网络发展 随着大模型技术逐渐成熟,智算行业正经历从“训练优先”向“推理主导”的战略转型。 这一趋势由两大核心驱动力: 算力结构重构: 2025年中国智能算力规模预计达1037.3 EFLOPS(是通用算力的12 倍),随着模型的成熟以及生成式人工智能应用的不断拓展,推理场景的需求日益增加,推 理服务器的占比将显著提高。IDC数据显示,预计到2028年,推理工作负载占比将达到 73%。 应用场景爆发式增长:智算业务的应用场景正从互联网行业向金融、医疗、制造、交通 等传统行业全面延伸,推动各行业的智能化转型。例如在金融领域,智算技术被广泛应用于 风险控制、智能投顾、欺诈检测等场景。通过对海量金融数据的分析和建模,智算中心能够 为金融机构提供更精准的风险评估和投资建议,提高金融服务的效率和安全性。 AI的应用场景从单一的训练模式扩展到丰富的推理服务,包括实时推理、批量推理、 边缘推理等多种形态,业务流量从规律化转向复杂化和多样化。与训练场景相对单一的流量 模式不同,推理业务呈现出显著的异构性和动态性特征。业务调度流量、集合通信流量、 KV Cache访问流量、存储访问流量等多种流量类型在同一网络中并存,且流量模式具有明 显的突发性和不可预测性。同时,推理部署形态也发生革新,PD分离, Attn-FFN分离等新 架构模式相继涌现,有效优化资源利用效率,进一步推动推理集群化部署。 3)普惠AI与终端革命:应用AI化,要求高性能、低时延的网络 AI技术正从“奢侈品”变为“基础设施”,带动产业AI升级,并深度融入终端设备。 产业AI升级,对性能要求更高:以金融为例,风控策略从之前的静态模型+动态策略升 级为基于AI模型的实时主动防护,要求在交易的同时快速做出判断。以某国内领先的银行为 例,其日均交易额约1.03万亿元,日均交易笔数达数亿级别,每秒交易上万次,会产生大量 的高频并发,需要超千卡的大规模、高性能的推理网络。 7 AI应用升级,对时延更加敏感:AI应用从当前的对话类/推荐类业务,将向AI助手/智 能体/云服务演进,随着应用的升级,例如远程AI医疗、量化交易等要求<5ms的时延,带 来网络时延降低200倍的诉求。 智算行业正经历从“算力堆砌”到“效率革命”的质变:训练向推理的演进重构了商 业价值链条,头部模型的技术突破定义了行业标杆,普惠AI与终端革命则打开了万亿级市 场空间。未来,技术融合、生态协同与绿色转型将成为竞争焦点,企业需在“技术领先性” 与“场景落地性”之间找到平衡点,方能在这场算力革命中占据先机。 4)Agentic AI带来通用计算和AI计算混合部署,网络归一化探索 头部企业通过参数规模扩张和网络架构革新保持技术领先,同时探索标准化网络方案 以应对算力碎片化挑战。 客户探索通智合一,统一网络架构的路线:快手在2025年互联网大会,提出“一盒 打天下”的理念,不同业务通过归一化网络承载,复用一套硬件设备,通过单一架构实现 最优性价比(可降低30%建网成本) 随着Agentic AI的发展,通用计算和AI计算将混合部署,传统的计算网络、存储网络 和智能网络正在加速融合,形成统一的智算网络基础设施。在这一融合进程中,以太网凭 借其开放生态、成本优势和持续的技术演进能力,正成为业界的主流选择。相比之下, InfiniBand虽然在智算内部高带宽互联方面具有优势,但其封闭生态和高昂成本限制了广 泛应用,面对推理集群中多种流量混合场景以及未来推理异构卡部署需求显得力不从心。 现如今,业界产生了诸如UEC、SUE、ETHLink等多种基于以太网设计的协议范式,展 现出更好的开放性和适应性,这预示着以太网在AI产业中的重要地位将进一步提升。 8 在数字经济向智能世界加速迈进的进程中,算力已成为核心生产力引擎,而网络作为算 力流通的“血管”,其效率与韧性直接决定数字价值释放。随着AI技术的蓬勃发展以及云化 架构的不断升级,数据中心网络正站在变革的前沿。 AI Fabric 2.0以“算力满载、业务永续”为价值目标,构建“AI网元-AI联接-AI大脑” 三层架构,重塑算力网络底层逻辑,为智能时代的算网协同与业务创新提供基石支撑。 3 数据中心网络代际演进 图1 AI Fabric 2.0三层架构 AI网元:硬件级算力传输的“坚实底座” 作为AI Fabric 2.0的硬件基石,由交换机和光模块构成,以四大核心能力为 AI 业务 筑牢算力传输根基。针对 AI 训练 “大带宽、突发性” 与推理 “高并发、低延迟” 的差 异化需求,它通过 FLB 均衡、Token 均衡算法实现 95% 以上吞吐效率,400ns 级低时 延(远优于业界 750ns 水平)精准匹配 AI 实时性诉求;在安全层面,构建 “态势感知 和多级加密” 防护体系,保障高价值训练数据与模型参数 0 泄露;同时内置 AI 芯片,具 备 ns 级高精度统计与故障可视化能力,让网络异常可感知、故障可追溯,从物理层确保 算力传输高效、安全、可控。 9 AI大脑:智能级网络管理的“指挥核心” 作为AI Fabric 2.0的顶层管控中枢,AI大脑以 “网络、业务、运维” 三级自动化, 彻底重构网络管理模式。在网络层面,通过网安一体架构与AI策略算法,实现网络与安全 配置的统一分析、自动生成,变更准确率达 100%,杜绝人工配置错误;在业务层面,凭 借 Rubook 拖拽式编排工具与10+预置场景 API,无需代码开发即可完成流程对接,将业 务上线周期从数月压缩至周级;在运维层面,构建应网一体体系,不仅能主动感知应用质 量、一键定位端到端路径故障,实现分钟级排障,还能结合知识图谱与AI算法,提前发现5 大类40多种高频风险隐患,覆盖70%场景,让网络管理从 “被动应对” 转向 “主动预 判”。 AI Fabric 2.0为数据中心网络发展指明了方向,也成为应对未来超大规模算力集群高 性能算力需求的重要解决方案。以实现数据中心网络融合充分释放算力为目标,实现算力 网络融合。 AI联接:协同级算力调度的“高效枢纽” AI联接打破传统网络被动传输的局限,以 “端网协同、全网可靠、智能调度” 重塑 算力流转路径,成为打通
下载文档到本地,方便使用
共 50 页, 还有 13 页可预览, 继续阅读
文档评分
请文明评论,理性发言.