TiDB Serverless的云原生架构进化:从0到2万+集群的极速狂奔0 积分 | 35 页 | 1.98 MB | 8 月前3
“十五五”时期培育世界级先进制造业集群的路径研究(14页 PPT)我国先进制造业集群培育的战略 部署 世界级先进制造业集群的典型特 征 世界级先进制造业集群的推进路 径 2 一、我国先进制造业集群培育的战略部署 3 “ 十四五”规划纲要 培育先进制造业集群 ,推 动集成电路、航空航天 ...... 医药及医疗设备等产业创 新发展。 党的十九大报告 促进我国产业迈向全球价 值链中高端 ,培育若干世 界级先进制造业集群。 n 拥 拥有一批具有国际竞争力和影响力的先进制造业集群是制造强国的重要标志。 近年来 , 美国、 日本、 德国等发达经济体均制定了相应的发展战略和支持政策 ,推动优势领域制造业集群发展壮大。 n 党中央、 国务院高度重视先进制造业集群工作。 党的十九大以来 ,相继出台多个政策文件 , 对培 育集群工作进行系列部署。 党的二十大报告 加快发展数字经济 ,促进 数字经济和实体经济深度 融合 ,打造具有国际竞争 ,打造具有国际竞争 力的数字产业集群。 党的二十届三中全会 加快推进新型工业化 ,培 育壮大先进制造业集群。 我国先进制造业集群培育的战略部署 4 《关于加快发展先进制造业集群的意见》 , 明确了集群工作的重点任务, 是开展集群竞赛和谋划落实集群工作的重要参考 , 总体可以归纳为“一个20 积分 | 14 页 | 1.94 MB | 3 月前3
运营商智算中心建设思路及方案的快速成熟,其参数规模呈百万倍增长,随之而来的 是算力需求的剧增,芯片算力的增长速度与模型参数 规模的增长存在剪刀差,推动了超大规模智算集群的 建设。 作为基础设施建设者和新质生产力的推动者,电 信运营商正积极推进智算布局。本文基于大模型的 发展趋势和需求,结合运营商的特定优势,提出了智 算集群布局以及算力、存储、网络和维护管理方面的 关键词: 人工智能;智算中心;基础设施;建设思路 doi:10.12045/j 越大,有预测认为,到 2026年文本数据将被训练完,图 像数据将在 2040年前后被用完,合成数据将会是未来 数据的主要来源 [6],数据量规模会再一次量级跃迁,对 存储的规模和性能带来更大的挑战。此外,智算集群 的规模也从百卡发展到万卡,甚至十万卡级别,对网 络通信的带宽和时延要求越来越高。 1.2 算力需求和挑战 在 Transformer 模型结构中,算力需求与模型参数 规模、数据量具有相关性,具体如表1所示。 B×300 B= 314 000 EFLOPS。若采用 910B(376 TFLOPS@FP16) 集群,按照 GPU 利用率为 30%,训练 28 天,则需要约 1 150张910B GPU卡。 按照上述测算,对于万亿参数模型,则需要万卡 级规模集群;对于十万亿参数模型,则需要十万卡级 规模集群。因此,为了实现通用人工智能 AGI,国内外 互联网厂商纷纷开始“囤卡”。在算力需求倍增的同 时,带来如下挑战。10 积分 | 6 页 | 3.64 MB | 3 月前3
2025年智能化时代数据库自主可靠运维白皮书-腾讯云应急预 案和通报机制。 在设计数据库应急预案时,应从硬件、软件、节点、集群、机房等多个维度进行全面考虑,确保在不 同类型的故障发生时,能够快速响应并恢复业务。同时,RTO(恢复时间目标)和RPO(恢复点目 标)的设定应尽量缩短,确保业务的连续性和数据的完整性。 福建海峡银行总结了硬件故障、软件故障、节点故障、集群故障、机房故障、业务故障、性能故障等 几类应急场景,并在实践中设立了应对措施。 故障发生时,能够快速切换到备用实例,确保数据库的持续运行。 在节点故障方面:需要建立节点的冗余机制,如数据库集群的多节点部署、节点的自动故障切换 机制等。节点故障发生时,能够快速切换到其他正常节点,确保集群的持续运行。 在集群故障方面:要建立集群的冗余机制,如多集群多中心部署、要实现集群自动故障检测和转 移机制等。集群故障发生时,能够快速切换到备用集群,确保业务的持续运行。 在业务逻辑故障方面:应该做好数据备份,采用全量备份、增量备份、差异备份等策略,确保数据 逻辑故障后,能够快速回滚到故障前的状态,减少影响。此外还要加强代码审查和测试,提前发现 和修复逻辑错误。 �� �.� 打造运维知识库体系 在数据中心故障方面:应在满足监管要求的多中心容灾基础上,实现数据库/数据库集群跨中心 容灾高可用等。机房故障发生时,能够快速切换到备用机房,确保业务的持续运行。 在性能故障方面:应加强性能监控和分析,做到实时监控数据库性能指标,使用分析工具识别性 能瓶颈。可对慢查询进行20 积分 | 89 页 | 2.06 MB | 3 月前3
2025年超节点发展报告-华为&中国信通院当我们站在人工智能大模型技术飞速发展的十字路口,一个清晰的趋势已然浮现:大模型正沿着 “规模定律”不断演进,从预训练扩展到覆盖预训练、后训练、逻辑推理的全流程,其参数与集群 规模实现“双万” 跨越,行业模型落地需求专业化。 传统的服务器集群架构在这场变革中瓶颈愈发明显。千亿级模型一次梯度同步产生的 TB 级数据 让传统以太网带宽难以承受;同时,伴随算力规模扩大,万级处理器带来的故障常态化,对自动化 系统能力则是超节点高效运转的保障,它需要具备大规模、高可靠、多场景等系统特征。大规模的 组网能力突破了单机扩展的硬件限制,为大规模算力聚合提供架构支撑;高可靠的运行特性化解了 网络、计算、存储等子系统的故障风险,保障集群作业的连续性;多场景的适配能力则能通过精细 化资源调度等机制,满足不同业务需求,最大化释放算力价值。 本文系统性地提出并论证了 “超节点将成为 AI 时代的核心计算单元” 这一重要观点,清晰地呈 基础建设的共识。 超节点架构引领技术革新,重构计算能力边界。超节点架构依托高速互联技术,将大带宽的互联 范围,从单台服务器扩展到整机柜以及跨机柜的大规模集群,超节点域内可达百 GB/s 级通信带宽、 纳秒级时延、TB 级超大内存,实现集群能力跃迁。相较“服务器集群”,超节点代表的是弹性、池 化、开放的系统能力:既能以极致吞吐支撑万亿参数训练,也能以低时延满足企业级大规模推理的 刚性需求。 昇腾 AI20 积分 | 31 页 | 4.79 MB | 3 月前3
智算中心暨电力大模型创新平台解决方案(51页PPT)存储网络用于调用共享存储资源 2. 管理网络:主要包括业务管理( K8S 平台、安全管理系 统 等)和 IPMI 3. 参数面网络:采用 RoCE/IB 实现集群内所有 AI 加速卡的 高 速互联 4. 数据面网络:采用 RoCE 实现智算集群与高性能文件存 储 的高速 互联 智算中心组网分业务 / 存储、管理、参数面、数据面四个网络平面,与通算相比,智算组网新增参数面网络及数据面网络,采用 RoCE 1 行业发展分 析 CONTENTS 强电系统 弱电系统 不间断电源系统 制冷系统 监控系统 消防系统 机房工程 管理节点 AI 计算集群 HPC 计算集群 通用云计算集群 高速存储集群 (并行文件存储) 高速 RDMA 网络 统一运营管理平台 服务目录 项目管理 用户管理 配额管理 计费管理 总览视图 模型开发 模型训练 自动建模 模型部署 模型推理 模型管理 模型监控 主要包括 AI 智算集群、超算集群、高速网络、通用计算集群、高性能存储集群、安全中心、云管平台、运维平台等。 平 台 安 全 运 维 监 控 平 台 云主机 裸金属 镜像服务 对象存储10 积分 | 51 页 | 4.74 MB | 3 月前3
智算中心建设项目解决方案(43页PPT)财政金融:统筹专项资金 ,支持项目融资 ,鼓励金融创 新。 要素保障:保障用电用网 ,支持清洁能源 ,培养专业人 才。 政策服务:优化审批流程 ,统筹能源消费。 产业集群目标:打造“数据中心 - 智能终端 - 数据应用” 千亿级产业集群 国家政策导向 1. 《东数西算工程》 :优化数据中心 布局, 引导算力资源向西部倾斜 , 促 进东西部协同发展。 2. 《算力基础设施高质量发展行动计 70% 东数西渲 业务 电源与 散热 智算 一期 网络 带宽 核心业务场景需求 协议 传输 成本 可控 A I 训练 A I 推理 功耗 配置 实施 规划 渲染 集群 高可 靠性 强扩 展性 设计需求 技术需求 美国:以保持国家竞争力为目的,最先发展智能超算中心, 具备单体算力大、科研实验室居多 国内:近两年已有 30+ 城市建成或在建设智算中心,总体 存储网络用于调用共享存储资源 2. 管理网络:主要包括业务管理( K8S 平台、安全管理系 统 等)和 IPMI (智能平台管理接口) 3. 参数面网络:采用 RoCE/IB 实现集群内所有 AI 加速卡的 高 速互联 4. 数据面网络:采用 RoCE 实现智算集群与高性能文件存 储 的高速 互联 智算与通算区别10 积分 | 43 页 | 5.90 MB | 3 月前3
智算无界:AIDC的超越和重构-上海贝尔技术加速创新,成为各国抢占科技革命与产业革命 优势地位的技术制高点。2024年3月,中国政府工作报告提出:“深化大数据、人工智能等研发应用,开展 ‘人工智能+’行动,打造具有国际竞争力的数字产业集群“。人工智能将在推动产业升级、促进新质生产 力加快形成等方面发挥重要作用。2025年1月,美国政府宣布OpenAI、软银和甲骨文三家企业将在美国建设 支持AI发展的基础设施,即“星际之门”。该项 算力基础设施高速发展,而以支持AI/LLM为目标构建的新型智算 中心成为数字新基建的重要底座。 趋势洞察 01 图1-1 生成式人工智能市场 趋势洞察 02 随着大模型训练参数以及GPU集群规模的不断提升,智算中心网络组网规模持续扩展,接入速率从 200Gbps升级至400Gbps/800Gbps乃至1.6Tbps,无损、低时延性能要求严格,推动智算中心网络以及智 算中心间跨区域网 动算 力供应链自主化。高效的算法一方面减缓了AI训练的算力需求,另一方面AI应用的普及导致AI训练与推理的 侧重点发生转变,预计未来几年推理算力占比将远超训练部分。 1.2 技术破局:从GPU集群到分布式协同一体 建设和运营智算中心需要巨大的资本投入,包括购买昂贵的AI芯片、建设高密度机房等。AI工作负载对 网络带宽和存储性能有极高的要求。AIDC需要优化网络架构,例如采用高吞吐量的以太网或InfiniBand,并10 积分 | 38 页 | 9.31 MB | 2 月前3
智能算网_AI Fabric2_0_研究报告-中国信通院&华为因此,要提升数据中心算力服务能力,就必须进一步提升数据中心网络性能。根据 《中国综合算力指数(2024年)》报告,计算、存储和网络是算力最重要的组成 部分,在数字经济发展新时期,需要更加关注构建集群算力、存力和运力于一体的 数据中心。 4 2.2 通算数据中心网络发展趋势与挑战 根据中国人民银行发布的金融行业标准《金融数据中心容灾建设指引》(JR/T 0264—2024),通用计算网 Opus通过混合推断模式实现“快速响应”与“深度反 思”的动态平衡。 模型摸高驱动集群规模走向10万卡,代际快速演进: 北美头部互联网客户在智算领域 的投资保持60%增速,例如Meta在2025年持续扩大英伟达H100 GPU集群,规模超35万 卡,网络代际向800GE快速演进;“星际之门”总投资超1150亿美元,2025年底建设超 6 30万卡GB200集群。国内客户也在积极跟进,例如字节2025年在智算领域投资1600亿 Cache访问流量、存储访问流量等多种流量类型在同一网络中并存,且流量模式具有明 显的突发性和不可预测性。同时,推理部署形态也发生革新,PD分离, Attn-FFN分离等新 架构模式相继涌现,有效优化资源利用效率,进一步推动推理集群化部署。 3)普惠AI与终端革命:应用AI化,要求高性能、低时延的网络 AI技术正从“奢侈品”变为“基础设施”,带动产业AI升级,并深度融入终端设备。 产业AI升级,对性能要求更高:以金融为例,风控策略从之前的静态模型+动态策略升10 积分 | 50 页 | 2.72 MB | 22 天前3
2025年智算服务案例集-全球计算联盟务,构建稳健高效的算力平台,才能将算力转化为驱动创新的价值源泉,持续 释放算力价值。 智算服务是发挥极致集群算力的关键要素,释放算力新质生产力,服务 不可或缺。智算集群是一个复杂工程系统,非简单的软硬件的堆砌,它要求 算、存、网、服务的高效协同。智算服务包含智算集成、运维、计算使能和优 化、辅助运营等方面。发挥极致集群算力,需要构建智算服务产业共识,持续 推进智算服务产业升维。 我们期望通过本案例集的 广东电信韶关数据中心间接蒸发冷却技术应用 ..................................................... 11 3.1.5 联合开发智算运维调度系统保证集群训练长稳高效 ............................................. 13 3.2 模型支持和行业应用类服务 ......................... 在运维阶段,如何将不同架构、不同厂商的算力资源高效池化、统一调度和管理,是 一个巨大的技术挑战。智算集群对稳定性与可靠性要求极高,AI 训练任务通常需要连续运 行数天甚至数周,任何硬件故障或网络波动都可能导致任务失败,造成巨大经济损失和时 间成本;智算集群的软硬件耦合深,故障定界困难。从芯片、服务器到集群网络、调度系 统、AI 框架,任何一个环节出问题都可能导致服务不可用,因此对运维团队的技术深度和10 积分 | 28 页 | 2.59 MB | 1 月前3
共 133 条
- 1
- 2
- 3
- 4
- 5
- 6
- 14
