面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)本白皮书面向新型智算中心逐渐以承载 AI 业务为主的演进诉求,提出 FlexLane 链路高可靠技术构想。该技术基于高速接口多通道架构的现状,打破原 有固定组合,引入灵活多通道架构,通过降速运行实时有效的规避任何通道发生 的故障,将链路可靠性提升万倍以上(助力 AI 网络互联可靠性超越 5 个 9),保 障 AI 训练和推理业务不受影响。FlexLane 技术支持在现有设备上通过软件升级快 速部署,或升级硬件实现更优的 ........................ 6 3 FlexLane 关键技术 ................................................8 3.1 故障隔离 ..................................................... 8 3.1.1 软件升级 ............................ ............................. 10 3.1.3 技术效果 ............................................. 13 3.2 故障预防 .................................................... 14 3.3 动态节能 ..............................0 积分 | 24 页 | 2.92 MB | 8 月前3
2025年算力运维体系技术白皮书-中国信通服务法规强化带来的合规压力, 以及人工智能技术催生的智能化运维需求,共同构成了算力运维的复杂技术生态。据 行业研究显示,算力中心的非计划停机每小时可能造成数百万美元损失,而高效的运 维体系可使设备故障率降低 40%以上,能源利用率提升 20%以上,凸显出科学运维体系 的核心价值。 本白皮书旨在系统梳理算力运维的技术框架与实践路径,为行业提供兼具前瞻性 与可操作性的参考指南。基于我们在算力基础设施领域多年的技术积累与项目经验, ......................................................................................- 13 - 2.2.3 故障预测与主动运维............................................................................................ 传统运维管理模式标准化,流程成熟,侧重流程合规与故障快速恢复;团 队需掌握服务器部署、网络排障等基础技能,对硬件底层原理深入理解要求较 低;算力运维管理模式动态化,需结合业务负载实时调整资源分配;团队需掌 握芯片级知识、能耗建模、分布式系统调度等技能,甚至需与算法工程师协作 优化算力使用效率。 算力运维体系技术白皮书 - 4 - (3). 传统运维故障多表现为单节点或单业务中断,影响范围较小,应对策略以10 积分 | 74 页 | 1.36 MB | 2 月前3
中国联通:中国联通自智网络白皮书(2025)......................................................................................... 28 6.1 故障运维以业务为中心,提升客户体验 ................................................................................... Tech-Co”战略,2024年起,聚焦故障处理 和投诉处理两个高价值场景,充分利用LLM和Digital Twin技术构建L4能力;2025-2026年, 计划在网络优化、网络配置变更、网络规划等更多高价值场景打造L4能力。 Singtel集团:将自智网络视为未来战略,已在集团成立自智网络 Program,加强子网间 的经验分享与协作,共同迈向自智网络L4。目前聚焦于故障管理、投诉管理、无线节能和无线 none”的少人化/无人化的自智网络愿景,致力于成为自智网络先锋。目前聚焦家宽体验保障、 无线节能优化、无线故障处理、无线网络优化等高价值场景。 Orange: 自智网络是集团“Lead The Future 2030”战略的5个重点工作之一。明确了 向自智网络L4演进的目标,目前聚焦网络变更、故障管理等高价值场景。 Telefónica:发布公司级战略“AN Journey”,聚焦于网络O&M等高价值场景,以全网10 积分 | 46 页 | 4.28 MB | 3 月前3
迈向智能世界白皮书2025-韧性DC白皮书-华为刘建明 在电力行业,韧性数据中心发挥着举足轻重的作用。作为关键基础设施,电力系统高度依赖于持续的数据支 撑和完整可靠的控制系统。而韧性数据中心不仅能够保障电网的稳定运行,还能够支撑实时荷载管理、故障 检测,在各类突发情况下实现快速恢复,从而增强电网稳定性、预防停电事故、加强网络安全防护、确保运 营合规。随着可再生能源时代的到来,面对日益复杂的电力系统和对数据的高度依赖,韧性数据中心的作用 多层级的物理与数字结构,更来自 于要支撑动态多变的业务需求、适应外部环境不确定性与抵御多样化风险的要求。随着大模型参数规模越来 越大,对数据中心集群的大规模协作要求越来越高,在此背景下,任何单一故障都可能引发连锁反应,业务 可用面临前所未有的挑战。数据中心的可靠性和韧性已经成为制约AI发展的关键要素。因此,《韧性DC白皮 书》的发布恰逢其时,希望这本白皮书能够为全球数据中心产业的可持续发展提供有益参考,共同构建更可 ······ 第一章 13 15 16 20 韧性DC的关键特征及成熟度模型 ·············································· 韧性的本质:故障即常态、恢复即本能 韧性DC关键特征 数据中心韧性成熟度模型与发展框架 ··································································10 积分 | 53 页 | 7.03 MB | 22 天前3
华为:2025践行主机现代化:主机上云技术白皮书构建三级测试流水线,持续提升测试效率和产品质量 5.1.5 资源申请和软件上线全流程自动化,实现一体化应用发布 应用一体化运维 5.2.1 全链路可观测,支撑故障快速发现 5.2.2 AI 模型结合混沌工程,实现故障智能定界 5.2.3 统筹构建故障演练与恢复体系,保障故障一站式自动化恢复 主机上云全流程顶设,提供主机现代化最佳指导和实践 主机上云现代化方案,构建主机现代化最优平台和服务 4.1 4 擎实现加密运算的加速处理 高可靠:硬件组件(处理器、内存、存储)普遍采用冗余设计,不会因单点硬件故障而引起系统中断 高安全:主机通常采用内置硬件加密模块,实现数据的加密处理与密钥管理,从而保障数据在存储、传 输及处理过程中具备机密性与完整性 (2) 管理运维层 主机的管理运维层包括硬件管理、操作系统管理、性能监控、故障恢复和备份管理等,它通常使用专有管 理工具进行集中控制和自动化运维。 业务应用层 Monitoring (WLM ,…) Application Operation System (z/OS,OS2200 ,…) 主要特点: 自动化运维:主机管理运维具备高度自动化特点,支持自动故障诊断、自动修复和无停机维护 可视化监控:通过集中管理控制台,运维人员能够快速掌握整个系统的状态和健康状况 08 (3) 数据服务层 主机的数据服务层,聚焦于数据的存储、管理、处理与保护,是支撑核心业务数据全生命周期的关键一层,20 积分 | 63 页 | 32.07 MB | 3 月前3
2024-2025指挥中心建设白皮书-中安网力与水平。 4、服务群众 a. 求助服务 除受理报警外,公安指挥中心积极为群众提供各类求助服务。如帮助寻找走失老人、儿童、智障人员等特 殊群体,协调解决群众遇到的紧急危难情况,如突发疾病求助、水电气故障求助等。通过与 120 急救中心、消 防部门、市政公用事业等单位建立联动机制,确保群众求助得到及时有效解决。例如,接到群众求助称家中老 人突发疾病昏迷,指挥中心立即调度附近派出所民警前往现场协助,并通知 航班计划。在航班换季期间,根据航空公司的运 力投放、市场需求以及机场资源情况,对航班时刻、航线、机型等进行合理安排和优化。实时跟踪航班计划的 执行情况,当遇到特殊情况(如恶劣天气、航空管制、飞机故障等)导致航班计划变更时,迅速协调航空公司、 空管部门等相关单位,及时调整航班计划,并将变更信息准确传达给各保障部门和旅客。例如,在冬季降雪天 气频发的地区,机场指挥中心提前与航空公司协商,对可能 与空管部门的紧密协作,及时获取空中交通流量信息,提前做好应对措施,保障航班在空中和地面的顺畅衔接。 c. 应急航班处置 面对各类突发情况,如恶劣天气(暴雨、大雾、强风等)、设备故障(跑道灯光故障、通信导航设备故障 等)、突发事件(机场周边鸟击、炸弹威胁等)对航班运行造成的影响,机场指挥中心迅速启动应急处置机制。 一方面,及时评估事件对航班运行的影响范围和程度,制定相应的应急处置方案,如启动备降机场、调整航班10 积分 | 44 页 | 15.64 MB | 3 月前3
2025智能微网解决方案技术自皮书(矿山场景)-华为足毫秒级需求(如非洲某铜矿遇光伏 / 负载波动导致频率不稳定,效率降 15% 以上,年损超千万美元);环 境适应性弱,高海拔功率衰减 30%-50%,极寒效率更低,且噪音、排放不达标;运维复杂,故障间隔短; 在非洲、拉美等基础设施薄弱地区,柴油运输依赖公路,供应链中断风险高(如暴雨导致道路中断),直接威 胁生产连续性。 表 1-1:2021-2030 年全球新能源行业对各金属需求量及增幅 供电中断可能导致设备损坏、生产停滞或安全事故。如球磨机停机超 10 分钟会使研磨介质固结, 清理需数天;井下排水系统停机 1 小时可能淹井,煤矿鼓风机停转 10 分钟或致瓦斯超标,需 供电系统 24/7 连续运行且毫秒级故障响应。 重负荷电机(破碎机、球磨机等)启停频繁易引发电压波动和谐波干扰,需动态无功补偿(SVG)、 稳压器维持稳定;接入弱电网配旋转备用或储能,孤网运行依赖储能或柴发协同控制。 需适应时空 离网模式:微电网独立运行,由内部电压源(如储能 VSG 模式、柴发 VF 模式)支撑电压和频率,光 伏运行于 PQ 模式。 计划性并网切离网:人工触发,切换前可预控功率,冲击较小。 非计划性并网切离网:电网故障导致切换,冲击较大,需继电保护与微网控制器配合实现无缝切换。 离网切并网:分无缝(准同期并网)与有缝(关停电源后并网)两种方式。 黑启动:系统失电后,由具备黑启动能力的电源(如储能)重建电压,逐步恢复供电。10 积分 | 21 页 | 11.01 MB | 3 月前3
IDC:2025年医疗行业智慧文印解决方案白皮书拿 不到诊疗单、门诊暂停等问题。 住院医生/护士工作站:多位医生和护士共用打印机,因此同样存在较大的打印量, 主要以A�/A�幅面的文档为主,包括出院病历、医嘱、体温单等。为减少打印机出现 故障而影响护理站的工作流程,所以设备的可靠性和稳定性至关重要。此外,首页 打印速度和连续打印速度都要快,以满足医护人员频繁打印的需求。同时还需要支 持彩色打印和网络打印,方便多名医疗人员共享设备。 者自助打印 挂号单、检查结果等资料。这类打印大多数情况下以黑白打印为主,且打印量较 大,因此需要支持大纸盒的打印机,以减少频繁更换纸张的麻烦;且打印机需要具 备持续打印的能力,不能轻易出现停机故障,以确保患者能够随时获取所需信息。 同时,打印速度也是关键因素之一,以便能够快速完成大量文档的打印任务,为患 者提供高效的自助打印服务。 �� 2.2 智慧文印管理解决方案:寻求效率和可靠的最优解 打印设备可靠:医疗场景对设备稳定性要求极高,需选择耐用、小巧且支持高品质 彩色打印的机型。打印设备的质量直接关系到医院文印工作的正常开展。设备需具备 皮实耐用的特性,能够在高强度的使用环境下稳定运行,减少故障发生的频率;小巧 的设计则更符合医院空间有限的实际情况,便于设备的安置和使用。在打印质量方 面,彩色打印品质尤为重要,特别是在检验影像科室等对色彩还原度要求较高的场 景,高质量的彩色打印能够确20 积分 | 22 页 | 7.61 MB | 7 月前3
中国电信全光网3.0技术白皮书度融合通感一体、数字孪生和人工智能等新技术,为千行百业提供“自 配置、自修复、自优化和自服务”的全光网智能服务,使网络规划更 精准地预测业务需求、网络建设更高效地安装调测、网络维护更快速 地处理故障、网络优化更及时地发现隐患和调优、网络运营更敏捷地 满足多样性业务诉求,从而实现 AI 时代的智能光网络。 8 Ⓒ中国电信版权所有 基于 AI 构建的光网络原生智能包括网络层、运营层和业务层智 构建的光网络原生智能包括网络层、运营层和业务层智 能,其中网络层智能包括多参量精确感知、快速采集、基于小模型的 网元数字孪生(实现“入网即孪生”)和健康度分析等,运营层智能 包括基于智能体的光网络运维大模型、开放管控、故障溯源、性能评 估和基于时延/性能裕量等多因子的最优选路等,业务层智能包括业 务敏捷发放、SLA 风险预判、用户质量监控、资源分析调度、智能决 策和差异化保障等。 5、内识外探的全维度光感知(多维光感知) 外探)。 针对内识,在网络感知层面,包括面向光缆网络的同沟同缆监测、 光缆闪断监测、光缆地理信息系统(GIS)还原、数字化光配线网络 (ODN)、面向设备、链路和网络的数据采集、全参量感知和故障感 知等,以提高业务的质量、安全性与快速开通能力;在业务感知层面, 实现业务应用类型、应用特征等识别,以及应用级 SLA 智能感知和 业务质量感知等。 针对外探,利用泛在互联的光缆网作为传感介质,结合10 积分 | 42 页 | 2.25 MB | 22 天前3
AI知识库:电力行业智能转型的新底座(23页 PPT)重构传统 RAG ,提升企业级复杂场景 AI 问答效果及准确率 , 比如 :如跨境电商运营复盘、 飞机维修等场景 引入智能体( Agent ) 的动态规划能力 , 支持长链多跳、 证据整合推理(如设备故障排查需 5 步以上操作) , 非静态单轮问 答; 引入数据技能( Text2SQL ) ,打通结构化库表(如 ERP 数据) 与非结构化文档(如维修手册) ,解决传统 RAG 孤岛问题; RAG 检索质量:高(多专家协同研判 / 验证) • 响应方式:主动优化 • 计算能力:优(数学智能体 /SQL 智能 体) • 学习能力:主动学习 • 典型应用场景:多步骤的技术故障排查、 高纬度模糊问 链式推理 无跨文档多实体关系推理能力 • 核心:关键词 / 向量检索 • 单向(流水线):检索 --> 重排 --> 生成 • 问题 : ,这些数据闲置在各系 统 中 ,未能加以有效应用。 设备数据现状的复杂性 设备的全生命周期数据分布于各个 系统中,来源广泛,结构复杂,数 据孤岛现象严重 故障数据的不均衡性 由于电力系统的高安全性高可靠性 要求,设备实际故障数据 / 样例少, 面临长尾分布的问题 场景一: 人工智能时代下的电力设备的检修与运维20 积分 | 23 页 | 4.45 MB | 3 月前3
共 63 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7
