智算中心建设项目解决方案(43页PPT)
5.90 MB
43 页
0 下载
3 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
离鳞渲染等业努 打造高效、 CONTENTS 4 2 3 贵州省政策支持 《关于促进全国一体化算力网络国家 ( 贵州 ) 枢纽节点建设的若干激励政 策》 建设支持:奖励新建算力中心 ,发放“贵州算力券 ”, 打造算力高地。【申请 “贵州算力券” 800 万】 数据流通: 归集数据集 ,建设训练基地 ,奖励数据交 易 主体。 产业发展:培育产业生态 ,发展云服务 ,汇聚算力资源。 场景开放:推广典型案例 ,奖励优秀应用项目。 主体培育:打造产业链 ,奖励落户企业 ,落实税收优惠。 科技创新:支持创新平台建设 ,强化研发创新。 财政金融:统筹专项资金 ,支持项目融资 ,鼓励金融创 新。 要素保障:保障用电用网 ,支持清洁能源 ,培养专业人 才。 政策服务:优化审批流程 ,统筹能源消费。 产业集群目标:打造“数据中心 - 智能终端 - 数据应用” 千亿级产业集群 国家政策导向 1. 《东数西算工程》 :优化数据中心 布局, 引导算力资源向西部倾斜 , 促 进东西部协同发展。 2. 《算力基础设施高质量发展行动计 划》:推动算力与能源融合 ,促进绿 色低碳发展。 3. 《国家数据基础设施建设指引》 : 强化算力与电力协同 ,助力数据中心 绿色转型。 行业需求洞察 数字经济 (GDP) :《数字 中国建设 2025 年行动方 案》 数字产业增加值占 GDP 比 重将超 10% ; GDP 增长贡 献率 66.45% 。 人工智能 (IDC) : 2024 年 备案大模型超 200 家, 行 业模型占 70% ; 2024 年智 算 AIDC 市场同 比增长 79.6%(146 亿 ) , 2028 年 预计达 1825 亿 (CAGR ≈ 56%) 。 行业数字化:智造业规模 24 年 1.55 万亿 ,25 年预 计 1.76 万亿 (CAGR 14%) 金 融 电 项目背景分析 第 3 页 l 需求本质: 构建 “弹性可扩展、算力多元化、绿色高效” 的区域级算力枢纽,既服务当前西部渲染业务,又为 AI 、大数 据 等新兴业务预留技术底座 , 匹配西部数字文创产业算力的需求。 • 单台 GPU 服务器功耗≈ 4kW,144 台总功 耗 ≈ 0.58MW ;配置 2N 冗余电源;机 柜冷板 风冷散热 (PUE<1.3) ,符合贵州 “东数西 算”绿色要求 项目需求分析 第 4 页 • 超微服务器性价比优于戴尔 / 浪潮;华三 交 换机成本比思科低 40% ;华三 S9850- 32H 交换机最大支持 4096 台高速交互 • 支撑文字 + 图像 + 语音等多模态模型 训 练, PB 级数据(自动驾驶路测、短视 频理 解等 )参数超 1 万亿 。 • 采用 AllReduce 协议, 每台服务器传 输 ≈ 7GB 数据 , 400G 网络( 50GB/s )耗时 < 0.14 秒 ,满足 训练效率 • 架构支持 3 年内算力翻倍 (≈300 台 GPU 服 务器 ) ,无需重构网络 ,满足“东数西渲 ” 业务量增长的算力弹性需求 • 承接 10 部院线电影、 50 个游戏场景、 100 个建筑可视化项目 , 数据量 约 1.2PB , 4K/8K 批量静帧渲 染 , 46PFLOPS 算力 • 优先部署 GPU 服务器 + 交换机 ,存储 复 用 政务云 数据中心剩余容量 “ 渲染 + AI” 双盈 利 双机热备 + 冗余网络 超微算力 + 华三 网络 多模态大模型 训练 架构支持弹性 扩展 • 支持软件定义算力 ( 容器化调度 ) ,切入 AI 推理 ( 智慧城市视频分析、工业质检 ) • 指标: MTBF( 平均无故障时间 )>10 万 h , 业务 7 ×24 小时运行 ,算力利用率≥ 70% 东数西渲 业务 电源与 散热 智算 一期 网络 带宽 核心业务场景需求 协议 传输 成本 可控 A I 训练 A I 推理 功耗 配置 实施 规划 渲染 集群 高可 靠性 强扩 展性 设计需求 技术需求 美国:以保持国家竞争力为目的,最先发展智能超算中心, 具备单体算力大、科研实验室居多 国内:近两年已有 30+ 城市建成或在建设智算中心,总体 投资规模超千亿,旨在带动当地产业智能化升级 参 AI 领域的竞争是未来世界领导权的竞争 NSF 基础科研 520 亿美元 创新与技术局 290 亿美元 关键技术研发 169 亿美元 应对 AI 的机遇和挑战,争取主动权 数字领域 人工智能领域 计算基础设施 1500 亿欧元 200 亿欧元 96 亿欧元 推动智能计算中心有序发展,打造 智能算力、 通用算法和开发平台一体化的新型 智能基础设施 国家新一代人工智能 创新发展试验区 建设试验区 国家人工智能 创新应用先导区 夯实技术 人工智能基础 设施示范工程 投资补贴 全球:数据的高速增长带来 AI 算力需求激增, 到 2030 年, AI 算力需求增长约 390 倍 来源:罗兰贝格 国内:我国智算增长迅速,智算占比从 2021 年的 51% 跃升为 2023 年的 70% 来源:中国信通院《中国算力发展指数白皮书( 2022 )》 政策加持国内外提前布局,智能算力需求激增 各国政府布局 AI 领域全栈能力,并出资引导智能算力基础设施建设, AI 智能算力增速远超摩尔定律 智算中心主要由国家政府总体牵头建设,同时基础设施提供商积极参与 智算中心发展情况 第 5 页 l 2022 年 11 月 30 日, OpenAI 的对话式 AI 大模型 ChatGPT 横空出世,月活破亿仅用时两月,成为史上增长最快的消费类应用 ,展现出解放人类生产力的惊人潜 质 l 微软作为 OpenAI 第一批投资者,通过优先使用该技术赢得先机,并将 ChagGPT 与旗下所有产品( Bing 、 Office 、 Azure )进行整合 ,加速了 ChatGPT 商业 智算增长趋势 智算中心布局 政策驱动 智算中心是以 GPU 、 AI 加速卡 [1] 等智能算力为核心、 集约化建设的新型算力基础设施,提供软硬件全栈环境, 主要承载模型训练以及适合中心推理、多媒体渲染等业务,支撑各行业数智化转型升级 具有较强的普适性,可服务于 toB/toC 适合有智能化转型需求行业,如自动驾 驶、智慧城市, toB 为主 专用性强,主要面向地球物理、分子力 学等基础学科以及军工研究 注 [1] :行业中 GPU 是一个较为泛化的概念,从功能角度划分, GPU 特指具备图形渲染能力的硬件, AI 加速卡特指用于 AI 推理或训练的硬件。本材料主要针对 AI 加速卡进 行分析 TaaS 是指 TensorFlow asa Service ,深度学习平台及行业大数据解决方案 智算中心定义 建设目的 应用领域 主要特征 • 专用 ASIC 芯片为主 • 为大规模科学计算任务提供支撑服 务 带动政府治理及各行各业数智化转型升 级,促进产业 AI 化、 AI 产业化 促进信息服务业云化转型,通过资源共 享及弹性发放,供用户按需使用资源 • CPU 通用算力为主 • 提供 IaaS 、 PaaS 、 SaaS 级 服务 3. 算力、数据、算法的融合平台 4. 以产业创新升级为目标 • GPU 智能算力为主 • 提供 TaaS 任务式服 务 1. 算力公共基础设施 2. 计算架构技术领先 智算中心定义 超算中心 智算中心 云计算中心 提升国家及地方科研创新能力 第 6 页 超算中心融合管理子系统 (包含统一门户) 零丢包 可少量丢包 0 丢包 高速网络交换子系统 通用 CPU 算力子系统 GPU 智算子系统 HPC 超算子系统 全闪存存储子系统 高性能文件存储子系统 典型超算智算中心核心系统单元包含通用计算子系统、智能计算( AI )子系统和高性能计算( HPC )子系统。 l 超算计算节点和智能计算节点分别通过 IB/RoCE 网络等高速网络交换子系统进行高速互连; l 集成多层次、多协议、多种数据保护模式的全闪存存储系统和高性能并行文件存储系统 ,以及配套的信息安全子系统和超 算中心融合管理子系统。 超算中心定义 无收敛 vs 逐级收敛 -> 无收敛 易扩展 2 层 vs 3 层 全盒 vs 框盒 大带宽 vs 2*25G -> 8*200/400G 典型超算数据中心架构 信息安全子系统 第 7 页 1. 对外连接网络(网络出口层)分为 CMNeT 、 云 专网、 IP 专网 1.CMNeT :用于公众用户访问智算中心 2. 云专网:用于智算中心间互联、训推互联 3. IP 专网:用于远程管理 2. 内部互联网络分为业务 / 存储网络、管理网络、 参数面网络、 数据面网络 1. 业务 / 存储网络:业务网络用于互联网用户访问智算 / 通 算 等资源, 存储网络用于调用共享存储资源 2. 管理网络:主要包括业务管理( K8S 平台、安全管理系 统 等)和 IPMI (智能平台管理接口) 3. 参数面网络:采用 RoCE/IB 实现集群内所有 AI 加速卡的 高 速互联 4. 数据面网络:采用 RoCE 实现智算集群与高性能文件存 储 的高速 互联 智算与通算区别 智算中心组网分业务 / 存储、管理、参数面、数据面四个网络平面,与通算相比,智算组网新增参数面网络及数据面网络,采用 RoCE 全 连接无损组网,充分发挥智算并行计算优势,同时组网整体无容灾设计,对运维工作带来新的挑战。 第 8 页 CONTENTS 2 4 3 l 聚焦大模型推理、 离线渲染、 生成 式 AI 开发、边缘计算协同四大核心 业务 ,满足人工智能项目开发全流 程算力需求 l 争取项目成果入选省级算力枢纽示 范案例 ,带动 “数据中心 - 智能终 端 - 数据应用” 产业链协同 ,助力 贵州千亿级数字产业集群建设。 l 算力规模 :部署 144 台 8 卡 GPU 服务器 ,构建 1152 卡千卡级算力 集群 ,支撑千亿参数模型训练; l 网络能力 : 基 于 大 二 层 架 构 与 Spine- Leaf 拓扑 ,实现端到端延 迟≤ 50μs ,保障集群大规模数据同 步效率; l 可靠性:全链路冗余设计(网络、 供电、散热) ,达成系统年非计划 停机时间≤ 4 小时目标 离线渲染 + 模型服务 + 算力租赁 l 采用 “计算 - 网络 - 管理 - 安全” 协同架构 ,各层深度联 动 ,为业务稳定运行提供支撑; l 分层协同 : Spine 层与业务 / 管理 核心层构成骨干网, Leaf 层接入 服务器 ,管理 / 安全层独立部署 业务与目标 业务定位 建设目标 架构逻辑 项目概述 第 10 页 统一运营管理平台 服务目录 项目管理 用户管理 配额管理 计费管理 总览视图 权限管理 规格定价 操作日志 大模型训练 离 线 渲 染 生 成 式 AI 开 发 边 缘 计 算 协 同 通用算力平台 数据处理 模型开发 模型部署 模型推理 模型训练 模型管理 集成开发环境: 自动建模 模型监控 云主机 镜像服务 裸金属 对象存储 云硬盘 VPC 预置算法框架: PyTorch 、 Tensorflow Jupyter Lab 、 VSCode Spine-Leaf 物理层 + EVPN/VXLAN 逻辑层的组合架构, 兼顾物理网络的高扩展性、东西向性能及运维效率, 与逻辑层弹性、 虚拟机无缝迁移(跨机柜 /POD ) 及多租户隔离能力。 计算层 网络层 安全层 管理层 AI 计算集群 超微 S83 - 4090T8 GPU 服务器 数据流向 高速 RDMA 网络 大二层架构 数据流向 防火墙流量 清洗 数据流向 独立带内、带外 管理网络 高速存储集群(并行文件存储) Spine - Leaf 拓扑 双飞塔冗余 管理节点 强电系统 弱电系统 不间断电源系统 制冷系统 监控系统 消防系统 机房工程 业务架构设计 方案架构 A : I 从 、 通 , 输 、高 、 群 ,再 、 调 、 程 、运维平台等。 控的全流 云管平台 由管理层 安全中心 安全层防护 性能存储集 经网络层传 用计算集群 计算层输 高速网络 业务数据 智算集群 数据流向 主要包括 软件 设施 硬设 施层 基础 设施 运 维 监 控 平 台 第 11 页 l 1152 张 GPU 理论总算力超 46PFLOPS ,可满足千亿参数大模 型训练对算力的极致需求; l 主 流 GPU 服 务 器 支 持 8 卡 PCIe4.0 插槽更具性价比 (4 卡算 力密度低且占用更多机架 , 16 卡需搭配高端服务器成本高 ) l 每机柜严格按 5U - 8U 、 10U - 13U 、 15U - 18U 位置部署 3 台,总计 144 台,形成千卡算力矩阵; l 每列机架 5U-18U 部署 3 台分布于机柜 中央,利用机柜中上部空间,避开底部 线缆区与顶部散热盲区 l GPU 配置:单台搭载 8 张 NVIDIA 4090 GPU , FP32 算力达 40TFLOPS / 卡 , 为模型训练、 渲染提供强劲算力支撑; l 硬件特性:支持 PCIe 5.0 高速互联 , 配置 2 × 1000W 冗余电 源 ,适配 10KW 高功率机柜 ,保障稳定运行; l 端口能力: GPU 服务器配置 25G 双网卡 ,分别连接不同 Leaf 交 换机 , 构建 25G 双链路冗余 l 集中部署于特定机柜位置(靠近管理交换机),实现 管理流量与业务流量物理隔离。 l 承担集群管理、资源调 度、实时监控职责,是 智算中心 “神经中枢”; l 管理节点通过独立管理 交换机接入,严格隔离 管理与业务流量 l 形 态 与 配 置 : 2U 机 架 式 设 计 , DellPowerEdge R7525 搭载 AMD EPYC 系列高性能 CPU 、 128GB 大 容量内存、 2 × 1.92TB SSD ,具备强大数据处理与 存储 能力; l 板 载 BMC 芯片 支持 IPMI 2.0 远程
| ||
下载文档到本地,方便使用
共 43 页, 还有
1 页可预览,
继续阅读
文档评分


智算中心机房气流组织设计及CFD模拟研究