积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部维度学堂(76)白皮书(55)政策法规(10)书籍案例(7)工具模板(3)国标标准(1)

语言

全部中文(简体)(68)

格式

全部PDF文档 PDF(63)PPT文档 PPT(8)DOC文档 DOC(5)
 
本次搜索耗时 0.020 秒,为您找到相关结果约 76 个.
  • 全部
  • 维度学堂
  • 白皮书
  • 政策法规
  • 书籍案例
  • 工具模板
  • 国标标准
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • DOC文档 DOC
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库

    面向大规模智算集群场景光互连技术白皮书 (2025) I 面向大规模智算集群场景 光互连技术白皮书 (2025年) 发布单位:中国移动 编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前 言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法 迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战:单通道速率难以突破400Gbps,传输延 迟高达数微秒,单机架互连功耗占比更是超过40%,这一系列瓶颈已 成为制约超大规模智算集群算力释放的核心障碍。 相较于传统可插拔光模块等设备级光互连技术,芯片级光互连正 在开辟全新的技术路径和产业赛道。它通过先进封装将光引擎与电芯 片合封在一起,把电信号的传输距离从米级大幅压缩至毫米级,从而 改写了物理层互连架构,实现50%以上的系统能效提升。由此构建的 “芯片—设备—集群”一贯式全光互连架构,已被业界广泛认定为下 一代智算基础设施的关键技术。 本白皮书系统性剖析芯片级光互连技术的核心原理和架构设计, 深入探讨光源、调制器等关键器件的技术发展路径。同时,全面梳理
    10 积分 | 52 页 | 5.24 MB | 3 月前
    3
  • pdf文档 全球计算联盟GCC:2025年异构算力协同白皮书

    ...........................................................................................25 5.3 集群级:跨域异构算力协同......................................................................................... 国内算力芯片起步晚但发展迅速,逐渐呈现“一超多强”的国产芯片产业格局,以下列 国产芯片为例: (1)昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色,搭建开放生态,形 成“芯片一框架一集群一应用”的四级闭环,已支持建造多个万卡级集群,2025 年推出 384 卡超节点新形态,最大算力可达 300 PFLOPS,48 TB 高速内存,配备创新的高速互联总线, 实现 384 卡一台计算机运行,大幅提升大模型训推效率。 卡一台计算机运行,大幅提升大模型训推效率。 (2)昆仑芯三代 XPU-R,自研 XPU-Link 全互联架构,搭建“芯片—XPU-Lite 框架— 千卡 1.2 TB/s XPU-Link 集群—百度文心大模型”四级闭环,已在百度内部提供 90%以上文 心系列训练算力,日均稳态负载 85%+。 (3)壁仞科技采用 Chiplet 架构设计大算力芯片,其首款 GPGPU(General-Purpose Computing
    10 积分 | 31 页 | 1.21 MB | 3 月前
    3
  • pdf文档 2025年算力运维体系技术白皮书-中国信通服务

    设备到软件系统、从单一架构到多云环境、从被动响应到主动预防的全方位变革挑战, 亟需构建一套适配算力时代特征的系统化运维体系。 当前,算力基础设施正经历着通算、智算、边缘计算多态融合的发展阶段,高密 度计算集群、异构芯片架构、分布式存储网络以及云边协同部署等技术趋势,使得运 维对象从传统服务器扩展至 GPU/TPU 加速器、液冷系统、智能能效管理平台等多元组 件。同时,“双碳”战略推动下的绿色运维要求、数据安全法规强化带来的合规压力, 计算领域,处理自然语言、图像识别、语音识别等任务,以 GPU 为代表。 超算算力场景:面向科学研究、工程仿真等高性能计算场景的集群化计算能力, 应用于需极高计算能力的科研及工程领域,处理大量数据和复杂的科学计算任务,如 气象、医疗、生物、仿真等领域,以 HPC 为代表的计算集群。 1.1.3 算力运维与传统运维的区别 传统运维核心是“保稳定”,注重基础设施可靠性;算力运维核心是“提效率”, 个国家数据中心集群,“东数 西算”工程稳步推进,将东部海量数据传输至西部数据中心集群处理,充分利用西部 能源优势,降低运营成本。同时,大型互联网企业、科技巨头纷纷加大在算力领域的 投入,建设超大规模算力中心。 1.2.2 算力芯片结构多样化 算力中心和传统数据中心在服务器芯片结构上存在本质的差异。传统数据中心芯 片架构相对单一,主要以 CPU 为算力核心,基于 CPU 和云存储集群提供的相关云服务,
    10 积分 | 74 页 | 1.36 MB | 2 月前
    3
  • pdf文档 2025年中国算力中心行业白皮书

    存储设备、网络设备及管理运维系统四大核心要素构成。 • 算力资源的部署与利用离不开算力中心的支撑。核心使命是提供强 大的算力支持,以应对各类复杂的计算挑战,如数据处理、AI模型 训练等。 • 算力中心通过高速网络连接形成计算集群,提供高性能、高可靠性 和高可扩展性的计算能力,支持数据分析、模拟计算和人工智能等 复杂任务。 类型 设备种类 设备名称 IT设备 连接器 光纤 光模块 网络设备 交换机 路由器 算力设备 限。相较于传统云资源池以CPU为通用计算主体,当下以GPU为代表的芯片成为提供智能 算力的主力军。借助云计算实现零散智算资源集中与纳管的优势,各大云厂商纷纷在智算领域进行布局,形成千卡、万卡智能云集群,以云服务的方式提供可便捷 获取的智能算力。云计算与智算资源融合形成的智能云能够为大模型训练和推理提供充足的算力资源,已经成为促进人工智能领域发展的坚实底座。 年均复合增长率 2015-2021 2021-2023 大模型训练对算力中心提出更高要求 AI大模型的训练对算力中心提出了更高要求,涵盖集群化部署、高效网络通信、大规模电力供应及专业运维管理 等多个维度,促使算力中心的定制批发模式成为承载大模型厂商算力中心需求的主流模式。 20 大模型训练带来的算力中心需求将由定制批发模式承接 • 为保证大模型训练效率,大模型厂商对算力中心提出更高要求 算力中心 ✓ 网络通信:集群内部节点之间更高的网 络带宽与更低的网络延迟 ✓ 能源供应:稳定的大规模电力供应
    10 积分 | 55 页 | 7.12 MB | 1 月前
    3
  • pdf文档 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)

    部或智算中心间海量的数 据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可 能导致 AI 训练任务失败,造成巨大的时间和资源浪费。然而,光模块的成本与 可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算 中心 AI 业务对可靠性的需求。 本白皮书面向新型智算中心逐渐以承载 AI 业务为主的演进诉求,提出 FlexLane 链路高可靠技术构想。该技术基于高速接口多通道架构的现状,打破原 ��� ���−��� ≈ ��� × ���(��� = 200���������,万卡集群无收敛组网��� = 15360 时,��� × ��� ≈ 3 × 106���������),和传统 DC 业务的可靠性比较,端到端的可靠性下降数千 倍以上。根据 Meta LLama 3.1 万卡集群公开的论文[2],LLama 3.1 在为期 54 天的 训练期间共发生 466 次故障中断,其中 光互联链路在带宽、延迟、传输距离等方面具备较大优势,已在智算中心得 到广泛部署,如图 1-2 所示2。 图 1-2 智算中心互联光链路类型 主流高速接口 400G/200G 光模块年失效率超 0.2%,千卡以上集群平均每年 发生数十次光模块故障事件。除了器件失效,设备侧或配线架光纤端面脏污也会 引发链路闪断[4],如图 1-3 所示。 2 常见多模或单模光模块常为多通道架构,每通道含 CDR(时钟数据恢复,Clock
    0 积分 | 24 页 | 2.92 MB | 8 月前
    3
  • pdf文档 2025年云智算光互连发展报告-中国移动

    ..................... 13 3.2 CPO 交换机在智算场景下的应用................................... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.......................... 率、抗干扰等物理 特性,使得光互连技术在带宽、距离、抗扰、功耗、密度等方面具 有压倒性优势,拥有巨大潜力。 光互连技术的应用范围正从传统的电信骨干网和城域网,快速 向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在 数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进, 光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下 的优选方案。随着 LPO、CPO 致整个封装体的更换,因此对光引擎的良率、可靠性以及可维护性 方面提出了极高要求。 云智算光互连发展报告 CPO 目前仍处于发展初期,但其在超高带宽、低功耗、高密度 互连方面的巨大潜力使其成为未来光通信,特别是 AI 算力集群和超 大规模数据中心不可或缺的技术方向之一。 2.2.4 光输入/输出 OIO 的核心理念非常具有颠覆性,它彻底摒弃传统的铜线电气 I/O,将光互连直接集成到计算芯片的封装内部或紧邻位置,使芯片
    20 积分 | 32 页 | 2.80 MB | 3 月前
    3
  • pdf文档 华为:2025践行主机现代化:主机上云技术白皮书

    传统的主机硬件通常由专用处理器、内存、存储系统和 I/O 通道组成,经过高度优化,能够高效应对大规 模数据处理和高并发事务的挑战。操作系统则专为这类主机设计,具备强大的资源管理能力和并行处理性能。 主要特点: 高性能:采用多处理器集群架构,实现大规模并行计算,处理器集成专用加速单元,通过硬件级加密引 擎实现加密运算的加速处理 高可靠:硬件组件(处理器、内存、存储)普遍采用冗余设计,不会因单点硬件故障而引起系统中断 高安全: (Scale-out)为核心,通过增加通用服务器节点实现资源池化与弹性伸缩,可在分钟级甚至秒级完成资源扩 容,能够快速应对业务负载波动,并支持跨地域分布式部署,更适合应对动态、快速变化的大规模业务需求, 例如 Kubernetes 集群可轻松支持上万个节点。 (3) 新兴技术适配能力薄弱 在数字化转型中,企业业务敏捷转型需融合云计算、大数据、AI、区块链等技术,但主机技术栈对此支持 有限:一方面,传统主机的编程语言(如 CO 数据模型、存储引擎、SQL 语法、数据类 型以及事务机制上都存在显著差异 ,需提供具备广泛兼容性和较高自动化能力的数据库迁移工具,以高效 地完成数据类型、表结构、索引、约束等内容的映射和转换工作。 ③ 支持高吞吐与集群化的分布式缓存,灵活应对高并发访问对业务系统的冲击。 ④ 提供高可用的分布式事务调度能力,支持大规模任务并行调度,增强业务批处理能力。 ⑤ 提供高性能云内及云外接入中间件,以满足复杂云网络高效连接的需求。
    20 积分 | 63 页 | 32.07 MB | 3 月前
    3
  • ppt文档 《协同:数字化时代组织效率的本质》读书笔记

    成为价值型企业,和大企业之间没有区别, 因为共 生逻辑下,大小企业互为主体 蜂窝型 专业市场组织集群 组织集群由处于不同的生产链体系中, 不同生产环节的小企业组合而成 劳动密集或传统的轻型加工产业 主企业领导型组织集群 这种组织集群的特点是,有一个强控 制能力的领导型组织, 这个组织在 分 工和协作中具有强势的垄断地位, 具 有超市场契约条款的制定权, 且 可以 凭借自身优势要求其他集群成 员进行 协同升级 这个主导的组织通常会攫取整个组织 集群的垄断利润中的大部分, 用以 支 持产业升级和技术创新 组织集群 组织集群的三种类型:蜂窝型 、 专业市场组织集群 、 主企业领导型组织集群 这种集群的特点是, 需要依附于专 业 的销售网络或是市场, 形成“前 店后 厂 ” 的组织集群形式 通常形成同质化,有限差异化的产 品, 一方面具有成本优势, 另一方面 可以 保证集群内企业的利润空间 构建组织集群可以促进协同创新 强链接
    0 积分 | 95 页 | 1.42 MB | 8 月前
    3
  • pdf文档 中国联通数字化监控平台稳定性保障工具落地实践

    加  调用关系:从简单对应到极其复杂,人力维护无法胜任  数据分片、异地存储,传统维护模式难以为继 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已 经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为继, 如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。 GOPS 全球运维大会 云平台维护方自定义 Promethues exporter 网络拓扑同步上报  卡顿、崩溃、错误等  调用量、响应时间、异常量等  应用调用trace  方法调用明细  云平台健康度、集群节点、pod容 器指标  网关:KONG、LB、Nginx等  中间件:Kafka、MQ、Zookeeper 等  数据库:MySQL、Clickhouse、 Elasticsearch等 agent 系统B agent 系统C agent Flink kafka 告警计算 指标聚合 明细分析 Nacos Clickhouse 存储集群 跨数据中心链路自动串连 业务报文查询 调度转发节点 存储集群 查询 业务配置打标 应用根因定位 应用性能分析 链路调用清单明细,方法级分析 链路自动拓扑 全层级告警墙 应用实例、主机串联 GOPS 全球运维大会
    10 积分 | 24 页 | 9.74 MB | 8 月前
    3
  • ppt文档 中国联通数字化监控平台稳定性保障工具落地实践

    当前面临的挑战及未来展望 目 录 CO N T E N T S 1 2 3 01 稳定性保障工具演进历 程 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业 IT 架构进入云原生时代,多云多集群部署 已 经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为 继, 如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。 工具职责范围的演进:覆盖广度及深度不断增加 核心业务场景、核心业务环节、核 心业务链路拓扑 白屏、慢响应、弹窗日志等 卡顿、崩溃、错误等 调用量、响应时间、异常量等 应用调用 trace 方法调用明细 云平台健康度、集群节点、 pod 容 器指标 网 关 : KONG 、 LB 、 Nginx 等 中 间 件 : Kafka 、 MQ 、 Zookeeper 等 数 据 库 : MySQL 、 Clickhouse Nacos 聚合后指标 链路计算 清单查询 分数据中心 系统 A 跨数据中心链路自动串连 业务配 置 打标 存储集群 实例 id 、容 器 id 网络设备 主机 ip 、机 房 云平台 链路调用清单明细,方法级分析 告警收敛 根因定位 存储集群 调度转发节点 链路自动拓扑 告警配 置 告警计算 应用性能分析 业务、应用维度链路展现 kafka Redis
    20 积分 | 24 页 | 2.00 MB | 8 月前
    3
共 76 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 8
前往
页
相关搜索词
面向大规规模大规模智算集群场景互连技术白皮皮书白皮书2025中移智库全球计算联盟GCC异构算力协同年算力运维体系中国信通服务中心行业新型以太以太网弹性通道FlexLane年云智算光发展报告移动中国移动华为践行主机现代现代化上云数字数字化时代组织效率本质读书笔记读书笔记国联联通中国联通监控平台稳定定性稳定性保障工具落地实践
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 - 2026 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩