面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库面向大规模智算集群场景光互连技术白皮书 (2025) I 面向大规模智算集群场景 光互连技术白皮书 (2025年) 发布单位:中国移动 编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前 言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法 迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战:单通道速率难以突破400Gbps,传输延 迟高达数微秒,单机架互连功耗占比更是超过40%,这一系列瓶颈已 成为制约超大规模智算集群算力释放的核心障碍。 相较于传统可插拔光模块等设备级光互连技术,芯片级光互连正 挑 战。期望通过产学研用多方协作,加速芯片级光互连技术从实验室原 型走向规模化商用落地,推动我国智算基础设施在硬件架构层面实现 跨越式升级,为数字经济的高质量发展筑牢坚实的算力基石。 面向大规模智算集群场景光互连技术白皮书 (2025) III 编写说明 牵头编写单位: 中国移动通信集团有限公司 联合编写单位(排名不分先后,按汉语拼音排序): 北京凌云光通信技术有限责任公司 烽火通信科技股份有限公司10 积分 | 52 页 | 5.24 MB | 3 小时前3
华为:2025践行主机现代化:主机上云技术白皮书2 应用和数据迁移阶段关键诉求 2.2.3 应用开发与运维转型阶段关键诉求 基础设施层 3.1.1 软硬协同一体化,构建融合高性能基础设施 3.1.2 调度和升级优化,支持超大规模算力管理 3.1.3 端到端可靠性设计,保障系统稳定可靠运行 3.1.4 原生安全能力基线,构筑纵深防御高安全体系 数据层 3.2.1 五大核心要素,定义和设计云上数据库 3 主机现代化已成为主机用户数字化转型必由之路 01 主机是一类高性能计算机系统,专为处理大规模事务和数据密集型应用而设计,具备强大的并行处理能力。 该系统通常能够支持数万至数十万级并发用户访问,并可确保系统在长时间稳定高效运行。主机系统广泛应用 于银行、保险、电信及政府等关键行业,承担着实时交易处理、大规模数据库管理以及批量数据处理等重要业 务任务。 07 主机技术栈是一个高度集成、分层 I/O 通道组成,经过高度优化,能够高效应对大规 模数据处理和高并发事务的挑战。操作系统则专为这类主机设计,具备强大的资源管理能力和并行处理性能。 主要特点: 高性能:采用多处理器集群架构,实现大规模并行计算,处理器集成专用加速单元,通过硬件级加密引 擎实现加密运算的加速处理 高可靠:硬件组件(处理器、内存、存储)普遍采用冗余设计,不会因单点硬件故障而引起系统中断 高安全:主机通常采用内置20 积分 | 63 页 | 32.07 MB | 2 天前3
湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书的极限,推动智算中心从计算、存储到网络的全栈架构深度演进。在 这一浪潮中,智算中心不仅是国家科技战略的核心支撑,更是产业智 能化升级的关键基础设施。 随着 AI 模型参数量呈指数级增长,尤其是在大规模分布式并行训 练场景下,网络性能已成为制约智算中心整体效率的关键瓶颈。当前 普遍部署的纯电交换网络在互联规模、带宽密度、端到端时延与能效 比等方面逐渐逼近物理与经济的上限:算力芯片的通信需求远超传统 层的关键挑战与发展路径; • 提出面向未来的技术演进方向与标准化路线建议。 我们期望本白皮书能为智算中心网络领域的研究人员、设备制造 商、运营商与服务提供商,提供系统的参考框架与技术洞察,共同推 动构建超大规模、超大带宽、超低时延、超高可靠的新一代智算中心 网络基础设施。 本白皮书的编制工作得到了国家自然科学基金项目(编号: U24B20150)的支持,在此表示感谢。 目录 前言........ 无法独立完成计算工作。 在训练的过程中需要进行频繁且复杂的通信。这就要求构建 GPU 之 间的全互联高速数据通道,以确保数据的高效传输,最大限度减少 GPU 间通信耗时。那么,如何满足大规模 GPU 之间的高效通信,构 建超大规模、超大带宽、超低时延、超高可靠的智算网络,已成为当 前智算网络发展重要挑战。 智算中心网络如图 1-1 所示,可按通信范围分为机内互联 (Intra-Node)与机外互联(Inter-Node)两类:20 积分 | 53 页 | 1.71 MB | 2 天前3
中国智慧教育白皮书··················································· 3 一、准确识变,夯实教育数字化发展根基 ··············· 3 二、科学应变,组织大规模在线教学实践 ··············· 5 三、主动求变,吹响智慧教育的时代号角 ··············· 6 第二章 发展战略 ···················· 展理念,聚焦集成化(Integrated)、智能化(Intelligent)、 国际化(International)的“3I”战略方向,围绕学生学 习、教师教学、学校治理、教育创新、国际合作等核心 场景,有组织地推动大规模、常态化应用,探索出一条 中国特色的教育数字化发展路径。 当前,大力推进教育数字化,发展包容和公平的优 质教育,让全民终身享有学习机会,已经成为世界各国 的普遍共识。面对教育发展与变革,中国愿与世界各国 第一章 发 展 历 程 党的十八大以来,以习近平同志为核心的党中央 高度重视教育工作,多次就教育数字化作出重要指 示。中国政府围绕普及优化学校数字化环境、强化 优质资源供给、深化大规模常态化应用等方面开展 了大量工作,正从转化阶段、转型阶段并行,加速 迈进智慧教育阶段,构建起面向智能时代的现代数 字教育体系。 一、准确识变,夯实教育数字化发展根基 2012 年,中国政府召开首次全国教育信息化工作电0 积分 | 44 页 | 510.97 KB | 5 月前3
2025年云智算光互连发展报告-中国移动云智算光互连发展报告 前言 本发展报告面向未来智算中心超大规模扩展、AI 大模型极致性 能与高效部署的核心需求,联合产业合作伙伴共同提出先进光互连 技术架构与演进路径,旨在突破传统电互连在带宽、距离与能效方 面的根本性瓶颈,构建高带宽、超低时延、低功耗及高可靠性的新 一代智算中心互连底座,为人工智能、高性能计算及云服务等关键 业务的持续跃升提供坚实支撑。 本发展报告的版权归中国移动云能力中心所有,并受法律保护。 性以及可维护性 方面提出了极高要求。 云智算光互连发展报告 CPO 目前仍处于发展初期,但其在超高带宽、低功耗、高密度 互连方面的巨大潜力使其成为未来光通信,特别是 AI 算力集群和超 大规模数据中心不可或缺的技术方向之一。 2.2.4 光输入/输出 OIO 的核心理念非常具有颠覆性,它彻底摒弃传统的铜线电气 I/O,将光互连直接集成到计算芯片的封装内部或紧邻位置,使芯片 能够直接通过光信号进行数据处理,如图 的新一代光电融合智算数据中心架构,将全光交叉技术引入 数据中心内部。如图 13 所示,光交换机替代顶层电交换机,是智算 场景下的典型组网。 图 13 OCS 在智算场景下的应用 在该应用场景下,组网的收益点如下: 1) 大规模弹性组网:全光交换机端口密度高,支持按 POD 粒度分 期建设,算力资源支持按需灵活组网,弹性可扩容。 2) 平滑演进:全光交换机本身协议无感知,支持向 800G、1.6T 甚至更高速率演进,可跨代际长期复用。20 积分 | 32 页 | 2.80 MB | 14 天前3
中移智库:2025年面向新型智算的光计算技术白皮书键前沿领域的 战略研究与布局。科技部在“十四五”重点专项申报指南中,将信息光子技术、 光电混合 AI 加速计算芯片等纳入重要内容,为科研工作提供了明确的方向指引。 国家自然科学基金委将“实现大规模光计算芯片的智能推理与训练”列为 2024 年度中国科学十大进展之一,进一步推动光计算技术的发展成熟。 地方政府积极响应国家号召,因地制宜地加快制定相关行动计划。广东省发 布的《加快推动光芯片 其产品涵盖光子计算平台(Envise)、芯片互连产品(Passage)和适配软件(Idiom), 专注于光电混合 AI 训练,近期获得 4 亿美元 D 轮融资,估值达 44 亿美元,并已 与芯片制造商和云服务提供商合作推进大规模部署。LuminousComputing 于 2018 年成立,技术源于普林斯顿大学 PaulPrucnal 课题组,2023 年展示了 O 波段 TRX 光子链路,该芯片运用 45nm 工艺降低损耗,高速 应用层:提供模型训推、目标识别、图像检测、视频分析等能力,赋能 自动驾驶、安防识别、生物医药等多种 AI 场景。当前部分企业已推出光 学计算加速板卡原型系统,但主要面向科研领域或特殊场景,尚未进入 大规模商业部署阶段。 2.3 光计算的核心技术路线 光矩阵计算是面向新型智算的光计算核心。神经网络中包含大量的以矩阵- 向量乘法(Matrix-vector multiplication, MVM),即矩阵和向量的点乘内积以10 积分 | 25 页 | 1.02 MB | 3 小时前3
上海科学智能研究院:2025年科学智能白皮书验知识的模型驱动、假设生成与验证、自动 与智能化实验以及跨学科合作等方式,加速 科学发现。传统科学发现以实验观察和理论 建模为核心,提出科学假设并归纳一般规律, 如物理定律。人工智能则采用模型驱动的方 式,从大规模数据中自动发现隐藏的规律, ©️diyun Zhu / Moment / Getty 科学智能白皮书 2025 4 5 2. 发展与态势 2.1 最新进展 随着深度学习、生成模型与强化学习等 关联,打造“灰盒模型”,提高模型的可信 度和计算效率。开发跨尺度、多模态统一的 神经网络架构,用于从微观到宏观的统一建 模。 2.2.2 如何提升 AI 模型在科学研究中的 泛化性 AI 模型依赖大规模训练数据,而高质量 的科学数据往往有限。在数据有限的情况下, 模型可能无法学习到有效的特征,难以适应 新的领域或任务,限制了其在实际科学问题 中的应用。 为了解决这一挑战,可以从以下几个方 辅助实验设计、数 据分析、理论建模的闭环系统,实现自动化 科学发现。开发可视化工具与交互界面,将 AI 生成的假设映射为可解释的科学逻辑链, 支持领域专家进行修正与理论完善。 传统科学发现从大规模解空间中生成候选假 设并验证,效率低且难以找到高质量解 4。 人工智能凭借强大的数据处理和分析能力, 可以更有效地探索解空间,生成高质量的候 选假设。例如,在纯数学领域,机器学习可 以辅助数学家发现新的猜想和定理20 积分 | 29 页 | 2.74 MB | 5 月前3
TDengine:2025电力行业数字化转型白皮书需求。这些需求不仅 限于技术层面的更新换代,还包括运营策略和管理方式的革新。正是这些需求,引导着电力 行业朝着更高效率和更智能化的未来发展。需求具体如下: 业务需求提炼 随着分布式新能源的大规模并网,电力行业产生的数据量呈井喷式增长。这不仅对数据存储 提出了高要求,也对数据实时处理和分析能力构成挑战。传统电网技术在全面、准确地建模 和管理数据方面力不从心,传统数据库更难以应对数据的高速增长和实时处理需求。 高,需要特定场景的优化和持续高人力运维; Hadoop 大数据平台的局限 NoSQL 数据库适用于处理大规模数据,如社交媒体和大数据分析,但其局限在于计算实时 性差、查询响应效率低,且计算资源消耗大。因此可能需要特殊的优化,这些局限源于其设 计初衷是为大规模数据存储和访问优化,而非针对时序数据写入和复杂查询所导致的。 NoSQL 数据库的局限 TDengine 深耕电力行 接入为例,TDengine 可通过自定义规则引擎清洗和转化数 据,以确保数据质量。在数据存储方面,TDengine 支持实时+历史合一,展现出卓越的压 缩性能,无论是数据写入或查询需求,都能满足大规模数据的管理需求,同时其分布式设计 和多级存储策略有效降低了存储成本。对于数据分析,TDengine 不仅支持 SQL 和时序数 据函数扩展,还提供流计算和聚合分析功能,支持复杂的嵌套查询和关联查询,并通过20 积分 | 15 页 | 3.22 MB | 4 月前3
2025智能微网解决方案技术自皮书(矿山场景)-华为系统分为三层:稳定构网控制层、高效协调控制层、智能优化调度层。 图 2-3:微电网分层控制架构 3.2 稳定运行六大关键技术 (1)大规模储能构网技术 图 2-4:构网型储能虚拟同步机工作原理框图 随着构网型储能技术突破和光储成本下降,GWh 级微电网已成现实。然而,大规模构网型储能并 机仍面临关键挑战:当数百至数千台独立电压源并联时,如何实现稳定同步运行成为技术难点。主要问题包括: 能系统在离网运行时能够作为稳定的电 压源,独立支撑微电网的电压和频率,确保系统在无主网依赖的情况下稳定供电,有效提升离网电力系 统的自主性与可靠性。 挑战 解决方案 14 15 (2)大规模储能黑启动技术 图 2-5:黑启动简化拓扑 图 2-7:故障穿越示意图 图 2-8:系统层级:故障后重同步算法 图 2-6:储能系统带载黑启动波形 在电力系统发生完全停电 传统发电机组单机容量较大,在黑启动过程中能够较容易地带动大范围负载,操作也相对简单。相 比之下,电化学储能单子阵功率有限,在矿山这类高负载场景中直接启动容易导致设备过载,甚至引发系统再 次崩溃。因此,百 MWh 级的大规模矿山微电网需依赖多组储能子阵协同完成黑启动,以提供足够的容量支撑 后续负荷的逐步投入。多台储能变流器(PCS)在电压源模式下并联运行时,微小的电压或相位差异都可能 引起环流,造成过流保护动作,最终导致黑启动失败。10 积分 | 21 页 | 11.01 MB | 3 小时前3
全国数智产业发展研究报告(2024-2025)算、先进存储、隐私计算等独特数据技术,对数据资源进行 加工处理的企业。在数据采存算管用全生命周期中需要突破 一系列关键核心数据技术,包括:数据封装、识别、登记、 溯源等数据治理技术,人工智能高质量数据集加工技术,数 据大规模战略性储备的数据存储技术等;跨广域协同的数据 7 传输技术,异地、异构、异属算力资源互联互通的算力网技 术;隐私计算、区块链、数据使用控制、数据沙箱、数联网、 可信数据空间等数据安全流通技术;数据全生命周期的安全 以及由此演化出来的感知、防护、溯源等安全技术,将数据 封闭在一个固定的区域,以不被他人识别和使用而实现数据 安全。数据动态安全是指运用隐私计算、区域链、数据使用 控制、数据安全沙箱、数据空间等数据安全流通技术,实现 数据大规模高效流通,并且在流通过程中确保数据安全。 6.数据基础设施企业 数据基础设施企业是指从数据要素价值释放的角度出 发,面向社会提供数据采集、汇聚、传输、加工、流通、利 用、运营、安全服务等新型基础设施的企业。按照国家数据 会问题的企业,包括基础大模型企业、垂直大模型企业、智 能体企业、智能算法企业、智能芯片企业等。具有人工智能 9 技术驱动的软件、平台或服务等核心产品,拥有持续获取、 处理和分析大规模高质量数据的数据驱动与迭代能力,是人 工智能企业的两个典型特征。 图 3:数智企业七种类型 (四)数智企业类型的特点 数智企业的类型不是排他的,常常表现出多重角色性和 动态变化20 积分 | 236 页 | 8.61 MB | 14 天前3
共 53 条
- 1
- 2
- 3
- 4
- 5
- 6
