集群 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

TiDB Serverless的云原生架构进化：从0到2万+集群的极速狂奔

0 积分 | 35 页 | 1.98 MB | 11 月前
3
“十五五”时期培育世界级先进制造业集群的路径研究（14页 PPT）

我国先进制造业集群培育的战略部署世界级先进制造业集群的典型特征世界级先进制造业集群的推进路径 2 一、我国先进制造业集群培育的战略部署 3 “ 十四五”规划纲要培育先进制造业集群，推动集成电路、航空航天 ...... 医药及医疗设备等产业创新发展。党的十九大报告促进我国产业迈向全球价值链中高端，培育若干世界级先进制造业集群。 n 拥拥有一批具有国际竞争力和影响力的先进制造业集群是制造强国的重要标志。近年来，美国、日本、德国等发达经济体均制定了相应的发展战略和支持政策，推动优势领域制造业集群发展壮大。 n 党中央、国务院高度重视先进制造业集群工作。党的十九大以来，相继出台多个政策文件，对培育集群工作进行系列部署。党的二十大报告加快发展数字经济，促进数字经济和实体经济深度融合，打造具有国际竞争，打造具有国际竞争力的数字产业集群。党的二十届三中全会加快推进新型工业化，培育壮大先进制造业集群。我国先进制造业集群培育的战略部署 4 《关于加快发展先进制造业集群的意见》，明确了集群工作的重点任务，是开展集群竞赛和谋划落实集群工作的重要参考，总体可以归纳为“一个

20 积分 | 14 页 | 1.94 MB | 6 月前
3
2025年智能化时代数据库自主可靠运维白皮书-腾讯云

应急预案和通报机制。在设计数据库应急预案时，应从硬件、软件、节点、集群、机房等多个维度进行全面考虑，确保在不同类型的故障发生时，能够快速响应并恢复业务。同时，RTO（恢复时间目标）和RPO（恢复点目标）的设定应尽量缩短，确保业务的连续性和数据的完整性。福建海峡银行总结了硬件故障、软件故障、节点故障、集群故障、机房故障、业务故障、性能故障等几类应急场景，并在实践中设立了应对措施。故障发生时，能够快速切换到备用实例，确保数据库的持续运行。在节点故障方面：需要建立节点的冗余机制，如数据库集群的多节点部署、节点的自动故障切换机制等。节点故障发生时，能够快速切换到其他正常节点，确保集群的持续运行。在集群故障方面：要建立集群的冗余机制，如多集群多中心部署、要实现集群自动故障检测和转移机制等。集群故障发生时，能够快速切换到备用集群，确保业务的持续运行。在业务逻辑故障方面：应该做好数据备份，采用全量备份、增量备份、差异备份等策略，确保数据逻辑故障后，能够快速回滚到故障前的状态，减少影响。此外还要加强代码审查和测试，提前发现和修复逻辑错误。 �� .� 打造运维知识库体系在数据中心故障方面：应在满足监管要求的多中心容灾基础上，实现数据库/数据库集群跨中心容灾高可用等。机房故障发生时，能够快速切换到备用机房，确保业务的持续运行。在性能故障方面：应加强性能监控和分析，做到实时监控数据库性能指标，使用分析工具识别性能瓶颈。可对慢查询进行

20 积分 | 89 页 | 2.06 MB | 6 月前
3
2025年超节点发展报告-华为&中国信通院

当我们站在人工智能大模型技术飞速发展的十字路口，一个清晰的趋势已然浮现：大模型正沿着 “规模定律”不断演进，从预训练扩展到覆盖预训练、后训练、逻辑推理的全流程，其参数与集群规模实现“双万” 跨越，行业模型落地需求专业化。传统的服务器集群架构在这场变革中瓶颈愈发明显。千亿级模型一次梯度同步产生的 TB 级数据让传统以太网带宽难以承受；同时，伴随算力规模扩大，万级处理器带来的故障常态化，对自动化系统能力则是超节点高效运转的保障，它需要具备大规模、高可靠、多场景等系统特征。大规模的组网能力突破了单机扩展的硬件限制，为大规模算力聚合提供架构支撑；高可靠的运行特性化解了网络、计算、存储等子系统的故障风险，保障集群作业的连续性；多场景的适配能力则能通过精细化资源调度等机制，满足不同业务需求，最大化释放算力价值。本文系统性地提出并论证了 “超节点将成为 AI 时代的核心计算单元” 这一重要观点，清晰地呈基础建设的共识。超节点架构引领技术革新，重构计算能力边界。超节点架构依托高速互联技术，将大带宽的互联范围，从单台服务器扩展到整机柜以及跨机柜的大规模集群，超节点域内可达百 GB/s 级通信带宽、纳秒级时延、TB 级超大内存，实现集群能力跃迁。相较“服务器集群”，超节点代表的是弹性、池化、开放的系统能力：既能以极致吞吐支撑万亿参数训练，也能以低时延满足企业级大规模推理的刚性需求。昇腾 AI

20 积分 | 31 页 | 4.79 MB | 6 月前
3
未来网络发展大会：算力城域网白皮书（2025版）

存算分离拉远训练场景........................................................... 27 算力城域网白皮书（2025 版） III 7.3 跨集群协同训练场景................................................................29 7.4 云边协同训推场景............. 。 AI/HPC 等高阶算力对于提升国家、区域经济核心竞争力的重要作用已经成为业界共识。2025 年 3 月，《政府工作报告》提出将持续推进“人工智能+”行动，打造具有国际竞争力的数字产业集群。这意味国家将加强顶层设计，加快形成以人工智能为引擎的新质生产力。随着这一行动的深入推进，人工智能将在推动产业升级、促进新质生产力快速发展等方面发挥重要作用。随着人工智能技术的快速发展，大模型训练对算力的需求呈指数效算力服务。除了围绕热点区域建设“2+3+7”1的公共智算云池，还重点在各省打造（N 个）城市智算基础设施服务当地用户，满足数字政务、城市大脑等城市数字化转型场景；通过（M 个）行业智算集群服务教育、电力、金融、互联网等重点行业；并基于地市边缘节点（X）按需将推理算力向边缘覆盖。中国电信云化 IP 城域网(简称为新型城域网)具备原生算力业务高效承载的能力，基于云网 POP

20 积分 | 42 页 | 7.16 MB | 6 月前
3
2026年我国数字经济发展形势展望

改革清单的指引下，引导各方细化实施细则和推进举措，谋划数字经济创新型企业培育、数字经济新场景大规模应用等领域新思路新布局，协同数据基础制度和数字基础设施建设，打造具有国际竞争力的数字产业集群，创新数字化改革配套机制，为数字经济高质量发展提供更完善的制度保障。 017 （二）数字产业新动能“成势”，“智能+”赛道创新育新 2025年，数字产业稳步回升，数字大省带动作用强劲，集聚化、智实现利润总额2.3万亿元，同比增长8.5%；收入规模前10的省份合计完成收入20.6万亿元，占全国总量的81.7%，对全国增长贡献率达97.3%。数字产业集群蓬勃发展，围绕数字领域的国家先进制造业集群、国家中小企业集群、国家创新型产业集群累计170余个，实现数字经济核心产业全覆盖。人工智能产业新赛道加快布局，人工智能芯片、算法框架等关键核心技术上持续取得突破，自主开源大模型正引领全球开源创新生态，等上下游关键环节。展望2026年，随着人工智能、大数据、云计算等新兴数字技术的应用潜能与产业价值进一步释放，数字产业将呈现以应用场景牵引与技术创新赋能的“双轮驱动”产业生态化发展格局，数字产业集群将形成梯度发展格局，引领数字产业迈向价值链中高端水平。一是新领域新赛道场景加速新兴技术大规模产业化进程，办公、社交、消费、娱乐等领域 018 中国工业和信息化发展形势展望系列将加速

10 积分 | 17 页 | 5.71 MB | 2 月前
3
未来网络发展大会：2025算电协同技术白皮书

年均增速超 30%，我国智能算力规模 2023 年达 435 EFlops，占全球 31%，但数据中心年耗电量预计 2030 年将突破 4000 亿千瓦时，占全社会用电量 4%，其中东部算力集群因绿电供给不足仍依赖化石能源，加剧碳排放矛盾。与此同时，电力系统面临新能源消纳的结构性难题；尽管我国风光发电装机超 14.5 亿千瓦（2024 年底），但间歇性、波动性导致西部“弃风弃光工程，在京津冀、长三角、粤港澳等 8 个地区布局国家算力枢纽节点，明确要求西部节点可再生能源使用率不低于 65%。2022 年 2 月，“东数西算”工程全面启动，规划建设 10 个国家数据中心集群，展望“十五五”期间，我国将进一步提升可再生能源的利用比例，到 2030 年，全国可再生能源消费量将达到 15 亿吨标煤以上。 2023 年 10 月，工信部等六部门发布《算力基础设施高质量发展月）系统推进算力基础设施布局与能源资源禀赋的匹配，引导实时性要求低的算力负荷向西部新能源富集地区转移。根据国家发改委 2025 年监测数据，内蒙古、甘肃等西部枢纽节点数据中心绿电占比已达 65%（其中内蒙古和林格尔数据中心集群绿电占比达 84.57%，2025 年 5 月数据），较东部地区高出 40 个百分点，有效缓解了东部用电紧张并促进西部绿电消纳。这一协同发展模式在《数据中心绿色低碳发展专项行动计划》（2024

10 积分 | 66 页 | 1.70 MB | 6 月前
3
“十五五”时期我国制造业发展形势研判及思路建议

广、优质企业培育等工作，实现“化点成珠、串珠成链”。二是巩固提升全产业链优势。部署打造一批国际竞争力强的 “拳头”产业，聚焦工程机械、轨道交通、光电子信息、能源电力装备、纺织服装等优势领域，打造若干世界级先进制造业集群。三是提升重点产业链供应链自主可控能力。加强对重点地区、重点行业运行监测，强化跨部门、跨区域联动，有效提升风险协同处置能力。强化跨地区、跨行业、跨 CCID D CCID CCID 同构性同质化等问题，建议：一是以世界级先进制造业集群为抓手优化产业布局。推动国家级集群向世界级迈进，加快培育发展一批专业化特色化省级先进制造业集群。制定专项 CCID D CCID CCID CCID CCID CCID CCID CCID CCID CCID CCID CCID CCID C 8 政策和行动计划，推动构建产业、科技、金融、人才高水平循环的集群产业生态。二是有序推动产业梯度转移。按照市

20 积分 | 9 页 | 329.18 KB | 6 月前
3
华为：鲲鹏原生开发技术白皮书（6.0修订版）

存储维护工具库存储维护工具库（KSML）是华为自研的存储维护工具库，包括 HDD/SSD 故障预测与 HDD/SSD 慢盘检测功能，基于机器学习算法，通过收集 SMART 数据训练模型，预测与识别存储集群潜在故障盘，通过采集系统磁盘的 svctm 完成慢盘检测。鲲鹏原生开发技术白皮书 / 18 鲲鹏原生开发能力介绍 KAE 使能 SPDK SPDK 的 BDEV 设备作为虚拟设备层对接底直通、QoS 控制策略、Writeback 控制策略以及 GC 控制策略，提升 Bcache 场景下的 Ceph 集群写性能。在块存储随机写场景下，IOPS 性能可提升 20% 以上。 IO 直通 IO 直通工具是针对 Ceph 均衡型场景下的一个流程优化工具，可以自动对 Ceph 集群进行性能优化。在均衡型配置场景下，使用 IO 直通特性可提升存储性能 15% 以上。数据压紧通过消鲲鹏原生开发能力介绍多瑙管理平台通过可视化界面为用户提供了便捷的 HPC 集群系统数据管理和软硬件资源管理功能，串联整个工作流程，帮助用户合理地进行作业调度和资源分配，提升集群系统计算能力利用率。多瑙调度器提供大规模集群下的高资源利用率、高吞吐量的作业调度能力： » 超大规模调度：最大支持 3000 节点 /38 万核超大规模集群调度。 » 高吞吐量作业：端到端吞吐量高，达到每小时 400 万

10 积分 | 112 页 | 17.64 MB | 11 月前
3
未来网络发展大会：2025分布式算力感知与调度技术白皮书

性供给与高效利用能力，实现算力按需调度与动态匹配，从而为上层多样化应用提供稳定、高性能、可持续的算力支撑。（4）级联控制层级联控制层作为跨域协同与系统全局优化的关键枢纽，负责实现多集群、多算域间、多层级的资源协同与联动调度。包括级联管理、资源协同、聚合处理、任务编排、分布式部署、跨域迁移功能，可将上层调度指令下发至各域控制单元，进行各域算力池状态实时协商与协调分配与聚该技术采用“域内自治、域间协同、全局融合”的三级感知架构，通过在边缘节点、区域集群与全局控制域之间建立分级感知通道，提升感知系统的可扩展性与实时性。一方面，在边缘域内部署轻量级资源探针，针对本地 CPU、GPU、内存、存储、I/O 等关键算力指标进行快速采集与预处理，并融合容器运行态、操作系统状态等多源信息，实现本地资源的快速建模与上报。另一方面，在区域级集群层引入聚合感知模块，支持多源数据的清洗、归一化与特征提取，对来自不同等步骤的工作流，调度器评估子任务计算强度、时延阈值等，结合资源视图与网络负载模型映射执行路径。如急诊影像分析这类超低时延任务，会下沉到就近边缘节点并通过网络切片保障传输；常规体检图像筛查等则优先上传至云端大规模集群处理，以获规模效益。分布式算力感知与调度还天然支持隐私保护的协同推理与训练。在联合推理模式下，患者原始影像块仅在本地进行 DICOM 去标识和压缩编码，随后通过加密隧道传输特征张量至云推理服务器；对联邦学

20 积分 | 73 页 | 2.15 MB | 6 月前
3

共 35 条前往

页

分类

语言

格式

TiDB Serverless的云原生架构进化：从0到2万+集群的极速狂奔

“十五五”时期培育世界级先进制造业集群的路径研究（14页 PPT）

2025年智能化时代数据库自主可靠运维白皮书-腾讯云

2025年超节点发展报告-华为&中国信通院

未来网络发展大会：算力城域网白皮书（2025版）

2026年我国数字经济发展形势展望

未来网络发展大会：2025算电协同技术白皮书

“十五五”时期我国制造业发展形势研判及思路建议

华为：鲲鹏原生开发技术白皮书（6.0修订版）

未来网络发展大会：2025分布式算力感知与调度技术白皮书