TiDB Serverless的云原生架构进化:从0到2万+集群的极速狂奔0 积分 | 35 页 | 1.98 MB | 5 月前3
“十五五”时期培育世界级先进制造业集群的路径研究(14页 PPT)我国先进制造业集群培育的战略 部署 世界级先进制造业集群的典型特 征 世界级先进制造业集群的推进路 径 2 一、我国先进制造业集群培育的战略部署 3 “ 十四五”规划纲要 培育先进制造业集群 ,推 动集成电路、航空航天 ...... 医药及医疗设备等产业创 新发展。 党的十九大报告 促进我国产业迈向全球价 值链中高端 ,培育若干世 界级先进制造业集群。 n 拥 拥有一批具有国际竞争力和影响力的先进制造业集群是制造强国的重要标志。 近年来 , 美国、 日本、 德国等发达经济体均制定了相应的发展战略和支持政策 ,推动优势领域制造业集群发展壮大。 n 党中央、 国务院高度重视先进制造业集群工作。 党的十九大以来 ,相继出台多个政策文件 , 对培 育集群工作进行系列部署。 党的二十大报告 加快发展数字经济 ,促进 数字经济和实体经济深度 融合 ,打造具有国际竞争 ,打造具有国际竞争 力的数字产业集群。 党的二十届三中全会 加快推进新型工业化 ,培 育壮大先进制造业集群。 我国先进制造业集群培育的战略部署 4 《关于加快发展先进制造业集群的意见》 , 明确了集群工作的重点任务, 是开展集群竞赛和谋划落实集群工作的重要参考 , 总体可以归纳为“一个20 积分 | 14 页 | 1.94 MB | 2 天前3
2025年智能化时代数据库自主可靠运维白皮书-腾讯云应急预 案和通报机制。 在设计数据库应急预案时,应从硬件、软件、节点、集群、机房等多个维度进行全面考虑,确保在不 同类型的故障发生时,能够快速响应并恢复业务。同时,RTO(恢复时间目标)和RPO(恢复点目 标)的设定应尽量缩短,确保业务的连续性和数据的完整性。 福建海峡银行总结了硬件故障、软件故障、节点故障、集群故障、机房故障、业务故障、性能故障等 几类应急场景,并在实践中设立了应对措施。 故障发生时,能够快速切换到备用实例,确保数据库的持续运行。 在节点故障方面:需要建立节点的冗余机制,如数据库集群的多节点部署、节点的自动故障切换 机制等。节点故障发生时,能够快速切换到其他正常节点,确保集群的持续运行。 在集群故障方面:要建立集群的冗余机制,如多集群多中心部署、要实现集群自动故障检测和转 移机制等。集群故障发生时,能够快速切换到备用集群,确保业务的持续运行。 在业务逻辑故障方面:应该做好数据备份,采用全量备份、增量备份、差异备份等策略,确保数据 逻辑故障后,能够快速回滚到故障前的状态,减少影响。此外还要加强代码审查和测试,提前发现 和修复逻辑错误。 �� �.� 打造运维知识库体系 在数据中心故障方面:应在满足监管要求的多中心容灾基础上,实现数据库/数据库集群跨中心 容灾高可用等。机房故障发生时,能够快速切换到备用机房,确保业务的持续运行。 在性能故障方面:应加强性能监控和分析,做到实时监控数据库性能指标,使用分析工具识别性 能瓶颈。可对慢查询进行20 积分 | 89 页 | 2.06 MB | 2 天前3
2025年超节点发展报告-华为&中国信通院当我们站在人工智能大模型技术飞速发展的十字路口,一个清晰的趋势已然浮现:大模型正沿着 “规模定律”不断演进,从预训练扩展到覆盖预训练、后训练、逻辑推理的全流程,其参数与集群 规模实现“双万” 跨越,行业模型落地需求专业化。 传统的服务器集群架构在这场变革中瓶颈愈发明显。千亿级模型一次梯度同步产生的 TB 级数据 让传统以太网带宽难以承受;同时,伴随算力规模扩大,万级处理器带来的故障常态化,对自动化 系统能力则是超节点高效运转的保障,它需要具备大规模、高可靠、多场景等系统特征。大规模的 组网能力突破了单机扩展的硬件限制,为大规模算力聚合提供架构支撑;高可靠的运行特性化解了 网络、计算、存储等子系统的故障风险,保障集群作业的连续性;多场景的适配能力则能通过精细 化资源调度等机制,满足不同业务需求,最大化释放算力价值。 本文系统性地提出并论证了 “超节点将成为 AI 时代的核心计算单元” 这一重要观点,清晰地呈 基础建设的共识。 超节点架构引领技术革新,重构计算能力边界。超节点架构依托高速互联技术,将大带宽的互联 范围,从单台服务器扩展到整机柜以及跨机柜的大规模集群,超节点域内可达百 GB/s 级通信带宽、 纳秒级时延、TB 级超大内存,实现集群能力跃迁。相较“服务器集群”,超节点代表的是弹性、池 化、开放的系统能力:既能以极致吞吐支撑万亿参数训练,也能以低时延满足企业级大规模推理的 刚性需求。 昇腾 AI20 积分 | 31 页 | 4.79 MB | 2 天前3
未来网络发展大会:算力城域网白皮书(2025版)存算分离拉远训练场景........................................................... 27 算力城域网白皮书(2025 版) III 7.3 跨集群协同训练场景................................................................29 7.4 云边协同训推场景............. 。 AI/HPC 等高阶算力对于提升国家、区域经济核心竞争力的重要 作用已经成为业界共识。2025 年 3 月,《政府工作报告》提出将持 续推进“人工智能+”行动,打造具有国际竞争力的数字产业集群。 这意味国家将加强顶层设计,加快形成以人工智能为引擎的新质生产 力。随着这一行动的深入推进,人工智能将在推动产业升级、促进新 质生产力快速发展等方面发挥重要作用。 随着人工智能技术的快速发展,大模型训练对算力的需求呈指数 效算力服务。除了围绕热点区域建设“2+3+7”1的公共智算云池,还 重点在各省打造(N 个)城市智算基础设施服务当地用户,满足数字 政务、城市大脑等城市数字化转型场景;通过(M 个)行业智算集群 服务教育、电力、金融、互联网等重点行业;并基于地市边缘节点(X) 按需将推理算力向边缘覆盖。 中国电信云化 IP 城域网(简称为新型城域网)具备原生算力业务 高效承载的能力,基于云网 POP20 积分 | 42 页 | 7.16 MB | 2 天前3
未来网络发展大会:2025算电协同技术白皮书年均增速超 30%,我国智能算力规模 2023 年达 435 EFlops,占全球 31%,但数据中心年耗电量预计 2030 年将突破 4000 亿千瓦时,占全 社会用电量 4%,其中东部算力集群因绿电供给不足仍依赖化石能源, 加剧碳排放矛盾。与此同时,电力系统面临新能源消纳的结构性难题; 尽管我国风光发电装机超 14.5 亿千瓦(2024 年底),但间歇性、波动 性导致西部“弃风弃光 工程,在京津冀、长三角、粤港澳等 8 个地区布局国家算力枢纽节点, 明确要求西部节点可再生能源使用率不低于 65%。2022 年 2 月,“东 数西算”工程全面启动,规划建设 10 个国家数据中心集群,展望“十 五五”期间,我国将进一步提升可再生能源的利用比例,到 2030 年, 全国可再生能源消费量将达到 15 亿吨标煤以上。 2023 年 10 月,工信部等六部门发布《算力基础设施高质量发展 月)系统推进算力基础设施布局与能源资源禀赋的匹配, 引导实时性要求低的算力负荷向西部新能源富集地区转移。根据国家 发改委 2025 年监测数据,内蒙古、甘肃等西部枢纽节点数据中心绿 电占比已达 65%(其中内蒙古和林格尔数据中心集群绿电占比达 84.57%,2025 年 5 月数据),较东部地区高出 40 个百分点,有效缓 解了东部用电紧张并促进西部绿电消纳。这一协同发展模式在《数据 中心绿色低碳发展专项行动计划》(202410 积分 | 66 页 | 1.70 MB | 2 天前3
“十五五”时期我国制造业发展形势研判及思路建议广、优质企业培育等工作,实现“化点成珠、串珠成链”。 二是巩固提升全产业链优势。部署打造一批国际竞争力强的 “拳头”产业,聚焦工程机械、轨道交通、光电子信息、能 源电力装备、纺织服装等优势领域,打造若干世界级先进制 造业集群。三是提升重点产业链供应链自主可控能力。 加 强对重点地区、重点行业运行监测,强化跨部门、跨区域联 动,有效提升风险协同处置能力。强化跨地区、跨行业、跨 CCID D CCID CCID 同构性同质化等问题,建议:一是以世界级先进制造业集群 为抓手优化产业布局。推动国家级集群向世界级迈进,加快 培育发展一批专业化特色化省级先进制造业集群。制定专项 CCID D CCID CCID CCID CCID CCID CCID CCID CCID CCID CCID CCID CCID C 8 政策和行动计划,推动构建产业、科技、金融、人才高水平 循环的集群产业生态。二是有序推动产业梯度转移。按照市20 积分 | 9 页 | 329.18 KB | 2 天前3
华为:鲲鹏原生开发技术白皮书(6.0修订版)存储维护工具库 存储维护工具库(KSML)是华为自研的存储维护工具库,包括 HDD/SSD 故障预测与 HDD/SSD 慢盘检测功能, 基于机器学习算法,通过收集 SMART 数据训练模型,预测与识别存储集群潜在故障盘,通过采集系统磁盘的 svctm 完成慢盘检测。 鲲鹏原生开发技术白皮书 / 18 鲲鹏原生开发能力介绍 KAE 使能 SPDK SPDK 的 BDEV 设备作为虚拟设备层对接底 直通、QoS 控制策略、Writeback 控制策略以及 GC 控制策略,提升 Bcache 场景下的 Ceph 集群写性能。在块存储随机写场景下,IOPS 性能可提升 20% 以上。 IO 直通 IO 直通工具是针对 Ceph 均衡型场景下的一个流程优化工具,可以自动对 Ceph 集群进行性能优化。在均衡型配 置场景下,使用 IO 直通特性可提升存储性能 15% 以上。 数据压紧 通过消 鲲鹏原生开发能力介绍 多瑙管理平台通过可视化界面为用户提供了便捷的 HPC 集群系统数据管理和软硬件资源管理功能,串联整个工作 流程,帮助用户合理地进行作业调度和资源分配,提升集群系统计算能力利用率。 多瑙调度器提供大规模集群下的高资源利用率、高吞吐量的作业调度能力: » 超大规模调度:最大支持 3000 节点 /38 万核超大规模集群调度。 » 高吞吐量作业:端到端吞吐量高,达到每小时 400 万10 积分 | 112 页 | 17.64 MB | 5 月前3
未来网络发展大会:2025分布式算力感知与调度技术白皮书性供给与高效利用能力,实现算力按需调度与动态匹配,从而为上层 多样化应用提供稳定、高性能、可持续的算力支撑。 (4)级联控制层 级联控制层作为跨域协同与系统全局优化的关键枢纽,负责实现 多集群、多算域间、多层级的资源协同与联动调度。包括级联管理、 资源协同、聚合处理、任务编排、分布式部署、跨域迁移功能,可将 上层调度指令下发至各域控制单元,进行各域算力池状态实时协商与 协调分配与聚 该技术采用“域内自治、域间协同、全局融合”的三级感知架构, 通过在边缘节点、区域集群与全局控制域之间建立分级感知通道,提 升感知系统的可扩展性与实时性。一方面,在边缘域内部署轻量级资 源探针,针对本地 CPU、GPU、内存、存储、I/O 等关键算力指标进行 快速采集与预处理,并融合容器运行态、操作系统状态等多源信息, 实现本地资源的快速建模与上报。另一方面,在区域级集群层引入聚 合感知模块,支持多源数据的清洗、归一化与特征提取,对来自不同 等步骤的工作流,调度器评估子任务计算强度、时延阈值等,结合资 源视图与网络负载模型映射执行路径。如急诊影像分析这类超低时延 任务,会下沉到就近边缘节点并通过网络切片保障传输;常规体检图 像筛查等则优先上传至云端大规模集群处理,以获规模效益。 分布式算力感知与调度还天然支持隐私保护的协同推理与训练。 在联合推理模式下,患者原始影像块仅在本地进行 DICOM 去标识和压 缩编码,随后通过加密隧道传输特征张量至云推理服务器;对联邦学20 积分 | 73 页 | 2.15 MB | 2 天前3
电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求整理 l 对跨节点的全对全通信机制进行优化,充分利用 InfiniBand 和 NVLink 提供的高带宽。 DeepSeek-V3 模型在拥有 2048 个 NVIDIA H800 GPU 的大规模集群上进 行训练, 每个节点配置了 8 个 GPU ,并通过 NVLink 与 NVSwitch 实现内部高速互联;不同节点间的高效通信则依赖于 InfiniBand ( IB )网络。 l 创新性提出了 供算力,主要用于基础通用计算; 2 )智能算力:由基于 GPU 、 FPGA 、 ASIC 等 AI 芯片的加速计算平台提供的算力,主要用于人工智能训练和推理计算; 3 )超算 算力:由超级 计算机等高性能计算集群提供算力,主要用于尖端科学领域的计算。早期通用算力占整体算力的比重达 90% 以上,随着人工智能技术的发展,智能算力规模 迅速增长。据中 国信息通信研究院预期, 2030 年全球智能算力规模将达 效发展。 2021 年 5 月 国家发改委、 中央网 信办、工信部中央能 源局 《全国一体化大数据中心协同创新体系算力 枢纽实施方案》 引导超大型、大型数据中心集聚发展,构建数据中心集群,推进大规模数据的“云端”分析处理,重点支持对 海 量规模数据的集中处理,支撑工业互联网、金融证券、灾害预远程医疗、视频通话、人工智能推理等抵近一 线、 高频实时交互型的业务需求,数据中心端到端单向网络时延原则上在10 积分 | 38 页 | 1.95 MB | 6 月前3
共 30 条
- 1
- 2
- 3
