京东物流超大规模仓储系统智能监控(32页)会 2 0 1 9 · 上 海 站 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 京东物流超大规模仓储系统智能监控揭秘 付正全 架构师 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 问题及挑战 1 超大规模监控系统解决方案 2 面向AIOPS的智能监控最佳实践 3 规划&展望 4 G O P S 全 球 运 维 大 会 2 频繁变化的资产,不可靠的CMDB 运维专家匮乏 复合型人才匮乏:AI和算法工程师+运维开发 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 问题及挑战 1 超大规模监控系统解决方案 2 面向AIOPS的智能监控最佳实践 3 规划&展望 4 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 对监控的认识 什么是监控? 为什么需要监控? 异常 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 调用链 分布式事物跟踪,跟踪分布式应用消息 自动检测应用拓扑,帮你搞清楚应用的架构 水平扩展支持大规模服务器集群 提供代码级别的可见性以便轻松定位失败点和瓶颈 使用字节码增强技术,添加新功能无需改动代码 集成SQLAdvisor 智能化采样率 G O P S 全 球 运 维0 积分 | 32 页 | 2.32 MB | 21 天前3
面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库面向大规模智算集群场景光互连技术白皮书 (2025) I 面向大规模智算集群场景 光互连技术白皮书 (2025年) 发布单位:中国移动 编制单位:中移智库、中国移动通信研究院、中国移动云能力中心、中国移动设计院 II 前 言 当前,智算集群已成为支撑人工智能大模型训练、自动驾驶算法 迭代等前沿领域的核心基础设施,并以惊人的速度从万卡向十万卡级 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战:单通道速率难以突破400Gbps,传输延 迟高达数微秒,单机架互连功耗占比更是超过40%,这一系列瓶颈已 成为制约超大规模智算集群算力释放的核心障碍。 相较于传统可插拔光模块等设备级光互连技术,芯片级光互连正 挑 战。期望通过产学研用多方协作,加速芯片级光互连技术从实验室原 型走向规模化商用落地,推动我国智算基础设施在硬件架构层面实现 跨越式升级,为数字经济的高质量发展筑牢坚实的算力基石。 面向大规模智算集群场景光互连技术白皮书 (2025) III 编写说明 牵头编写单位: 中国移动通信集团有限公司 联合编写单位(排名不分先后,按汉语拼音排序): 北京凌云光通信技术有限责任公司 烽火通信科技股份有限公司10 积分 | 52 页 | 5.24 MB | 3 小时前3
2025年分布式调相机对大规模新能源汇集到的支撑作用探讨报告20 积分 | 33 页 | 3.71 MB | 2 天前3
2025年超节点发展报告-华为&中国信通院加速人工智能科学计算,服务算法创新 助力行业企业智能化升级 系统特征 AI 技术从单点能力突破迈向系统能力创新 超节点技术产业生态发展格局 基础特征:大带宽、低时延、内存统一编址 超大规模 扩展特征:多级缓存池化、资源灵活配比 超高可靠 灵活切分 大模型计算基础设施的挑战 小结 小结 CONTENTS 目录 超节点发展报告 02 当我们站在人工智能大模型技术飞速发展 阻塞的高带宽 互联,将数百上千个 AI 处理器编织为一个逻辑统一的高密度计算体,为高效计算提供了底层支撑。 系统能力则是超节点高效运转的保障,它需要具备大规模、高可靠、多场景等系统特征。大规模的 组网能力突破了单机扩展的硬件限制,为大规模算力聚合提供架构支撑;高可靠的运行特性化解了 网络、计算、存储等子系统的故障风险,保障集群作业的连续性;多场景的适配能力则能通过精细 化资源调度等机制,满足不同业务需求,最大化释放算力价值。 化资源调度等机制,满足不同业务需求,最大化释放算力价值。 本文系统性地提出并论证了 “超节点将成为 AI 时代的核心计算单元” 这一重要观点,清晰地呈 现了超节点的基础定义与特征,包括技术层面的基础特征和扩展特征,以及系统层面的大规模、高 可靠、多场景特征。同时,通过分析全球产业的演进路线、超节点稳定性的核心挑战以及技术产业 生态发展格局,为产业界指明了超节点的发展方向。 在未来计算的下一个十年,超节点无疑将成为推动 AI20 积分 | 31 页 | 4.79 MB | 2 天前3
绿色能源智能安全管控系统方案(103页 PPT)的 均 衡 模 式 被 动 式 均 衡 对 大 容 量 储 能 系 统 的 调 制 无 能 为 力 从 根 本 上 解 决 困 扰 GEMS 优 于 其 它 同 类 产 品 的特点 用于大规模储能 , 物美价廉 主 动 式 均 衡 与 被 动 式 均 衡 的 比较 BMS 精 准 度 出 类 拔 萃 BMS 对 电 池 寿 命 的 优 化 07 08 09 10 11 12 电芯串调制效 果并不好。 主动式均衡 - 成本较高 , 调制效果好 , 应 该是≥ 50A h 的电池包的首选。 均衡模式 PART 06 被动式均衡对大容 量储能系统的调制 无能为力 大规模储能系统的挑战 储能系统挑战 重型矿山车、港口机械油改电需 200KWh 以上储能, LFP 电 芯 安全但被动均衡难调模块 ,弱模块加速衰减 ,存储电能下降, 输出电能缩水 ,安全隐患。 了电池模组的更换频率。 系统效率 主动式均衡技术显著提高系统整 体效率 ,减少能量损耗 ,延长 电 池使用寿命 ,降低维护成本。 主动式均衡的重要性 储能系统公司的困境 储能挑战 大规模储能系统如海辰每簇达 384 节电芯 , 维修难 题浮现 , 被动式均衡 BMS 虽控初投 , 维保成本却 成隐患。 维修困境 时间推移 , 储能系统维保负担直线攀升 , A 123 曾 遇问题重现10 积分 | 103 页 | 22.71 MB | 3 小时前3
基于埃威互联技术的能源管控方案(27页 PPT)从而实现更加灵活和全面的信息化管理。通过大量终端信息的采集结合大数据分析,做出更 加明智的决策。 WWW.SHAV.CN 多连接通信能 力 • 需对工业现场 的设施进行控 制, 结合定位 及传感器数据 进行精准联动。 大规模采集能 力 • 需大量的采 集工业现场的 数据信息, 提升数字化信 息收集能力。 高系统扩展能 力 • 需不断根据 业务情况不断 增加功能, 持续提升系统 功能 低功耗待机能 力 议芯片,开发了具有大规模、多连接、低 功耗、高精度等优点的埃威互联 ® 技术, 解决了其他通信技术无法在限定区域进行 大规模有源部署的局限,是面向数字化新 需求的物联网解决方案 关键技术:大规模多连接物联网通信技术 埃威互 联技术 高精度定位能力 单基站可实现亚 米级实时定位。 多连接通信能力 单基站可同时与 1000+ 终端双向 通信。 大规模采集能力 单基站可同时进 定制自定义协议芯片, 开发了具有大规模、 多连接、高精度、低功耗等优点的埃威互联 ® 技术, 解决了其他通信技术无法在限定 区域进行大规模有源部署的局限, 是面向工业互联多节点数字化管理新需求的物联网 解决方案。 • 满足了工业现场对于无线的、低成本的、长时间的、大规模的数据采集通信的需求。埃 威互联 ® 技术, 可以用一台基站实现: 3000+ 大规模终端物理量信息采集 \1000+10 积分 | 27 页 | 10.07 MB | 2 天前3
金融-DeepSeek银行部署加速,AI金融应用迎来跃迁泰 证 券 研 究 所 n DeepSeek 开源使金融机构能够轻松获得前沿模型能力,且大幅降低部署成本。其通过对训练方式、算法架构和推理方 法 的工程化优化大幅降低了部署成本。近期采用大规模 RL 训练方法的阿里 QwQ-32B 等模型也在缩小规模的同时达到了 DeepSeek R1 671B 的应用效果,有望进一步催生银行落地应用。 n 我们认为金融行业人工智能的应用价值大体可以分为三个层次: 技术落地不及预期、竞争加剧、信息更新不及时等。 2 核心观点 DeepSeek 开源、低成本、强推 理 助推银行业应用 1 n DeepSeek 模型在 Post-Train 阶段大规模应用了强化学习方法。 R1 使用了冷启动 + 大规模强化学习方法, R1-Zero 版 本模 型使用纯强化学习方法。随训练过程推进,模型展现出了推理能力的扩展(高准确率和 long-CoT 能力涌现等) 。 图表:随步数提升 图表:随步数提升 R1-Zero 的 AIME 任务准确度 图表:深度思考能力提升 性能:后训练阶段大规模应用强化学习,表现推理能力扩展 资料来源: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning ,中泰证券研究所10 积分 | 25 页 | 1.44 MB | 2 天前3
华为:2025践行主机现代化:主机上云技术白皮书2 应用和数据迁移阶段关键诉求 2.2.3 应用开发与运维转型阶段关键诉求 基础设施层 3.1.1 软硬协同一体化,构建融合高性能基础设施 3.1.2 调度和升级优化,支持超大规模算力管理 3.1.3 端到端可靠性设计,保障系统稳定可靠运行 3.1.4 原生安全能力基线,构筑纵深防御高安全体系 数据层 3.2.1 五大核心要素,定义和设计云上数据库 3 主机现代化已成为主机用户数字化转型必由之路 01 主机是一类高性能计算机系统,专为处理大规模事务和数据密集型应用而设计,具备强大的并行处理能力。 该系统通常能够支持数万至数十万级并发用户访问,并可确保系统在长时间稳定高效运行。主机系统广泛应用 于银行、保险、电信及政府等关键行业,承担着实时交易处理、大规模数据库管理以及批量数据处理等重要业 务任务。 07 主机技术栈是一个高度集成、分层 I/O 通道组成,经过高度优化,能够高效应对大规 模数据处理和高并发事务的挑战。操作系统则专为这类主机设计,具备强大的资源管理能力和并行处理性能。 主要特点: 高性能:采用多处理器集群架构,实现大规模并行计算,处理器集成专用加速单元,通过硬件级加密引 擎实现加密运算的加速处理 高可靠:硬件组件(处理器、内存、存储)普遍采用冗余设计,不会因单点硬件故障而引起系统中断 高安全:主机通常采用内置20 积分 | 63 页 | 32.07 MB | 2 天前3
湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书的极限,推动智算中心从计算、存储到网络的全栈架构深度演进。在 这一浪潮中,智算中心不仅是国家科技战略的核心支撑,更是产业智 能化升级的关键基础设施。 随着 AI 模型参数量呈指数级增长,尤其是在大规模分布式并行训 练场景下,网络性能已成为制约智算中心整体效率的关键瓶颈。当前 普遍部署的纯电交换网络在互联规模、带宽密度、端到端时延与能效 比等方面逐渐逼近物理与经济的上限:算力芯片的通信需求远超传统 层的关键挑战与发展路径; • 提出面向未来的技术演进方向与标准化路线建议。 我们期望本白皮书能为智算中心网络领域的研究人员、设备制造 商、运营商与服务提供商,提供系统的参考框架与技术洞察,共同推 动构建超大规模、超大带宽、超低时延、超高可靠的新一代智算中心 网络基础设施。 本白皮书的编制工作得到了国家自然科学基金项目(编号: U24B20150)的支持,在此表示感谢。 目录 前言........ 无法独立完成计算工作。 在训练的过程中需要进行频繁且复杂的通信。这就要求构建 GPU 之 间的全互联高速数据通道,以确保数据的高效传输,最大限度减少 GPU 间通信耗时。那么,如何满足大规模 GPU 之间的高效通信,构 建超大规模、超大带宽、超低时延、超高可靠的智算网络,已成为当 前智算网络发展重要挑战。 智算中心网络如图 1-1 所示,可按通信范围分为机内互联 (Intra-Node)与机外互联(Inter-Node)两类:20 积分 | 53 页 | 1.71 MB | 2 天前3
中国推理算力市场追踪报告,2025H1-沙利文市场追踪报告,2025年H1 头豹研究院 弗若斯特沙利文咨询(中国) 2025年8月 2 关键发现 算力需求重心从训练转向推理,算力基础设施持续扩展与升级 AI算力消耗已从集中式训练转向大规模推理,带来前所未有的增量需 求。2025年被认为是算力爆发的元年,推理算力的需求将迎来井喷式 增长。推理算力的需求将在未来几年内远超训练算力。 01 2025年H1中国推理算力服务市场中,天翼云以【21 首家实现DeepSeek模型全栈国产化推理服务落地的运营商级云平台。 02 未来推理算力长序列与超大模型推理优化成为关键,国产软硬件 协同与生态成熟推动推理普及 03 中国算力正朝着“训推一体”融合架构快速发展,以支撑大规模 模型与多模态应用的高效低延迟推理。国产AI芯片与推理框架不 断优化,结合模型压缩、量化、动态推理等技术,进一步提升能 效比和部署灵活性。 3 沙利文市场研读 | 2025/08 2 研究框架 ToB中心 ToB边缘 业务 主体 大型互联网 运营商 大模型公司 行业头部企 业 大中型企业 大中小企业 大型互联网 大型企业 分支/ 中小企 算力 需求 超大规模 大规模 较小规模 小规模 超大规模 大规模 小规模 千卡~万卡 数百卡~千 卡 单机8卡起步 单机1卡起步 千卡以上 数百卡~ 数十卡 工程 难度 很高 高 较高 一般 很高 高 较高 TP/DP/PP并行,10 积分 | 12 页 | 1.12 MB | 3 小时前3
共 409 条
- 1
- 2
- 3
- 4
- 5
- 6
- 41
