中国联通数字化监控平台稳定性保障工具落地实践
2.00 MB
24 页
0 下载
20 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
中国联通数字化监控平台稳定性 保障工具落地实践 曹家豪 联通软件研究院 项目经理 稳定性保障工具演进历程 稳定性保障工具落地场景 及成效 当前面临的挑战及未来展望 目 录 CO N T E N T S 1 2 3 01 稳定性保障工具演进历 程 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业 IT 架构进入云原生时代,多云多集群部署 已 经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为 继, 如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。 工具职责范围的演进:覆盖广度及深度不断增加 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 几个 核心系统 单系统 应用维度根因定位 故障点人工恢复 系统具备应急预案 被动应急 统一变更入口 故障统一调度 工具建设 数字化转型中系统安全生产痛点 问题 数智运维挑战 n 端到端稳定性保障体系缺失, 自动化、智能化故障处理能力不足 n 故障处理过多依赖专家经验,故障没有沉淀为有效的资产 n 故障处于被动防御,救火,运维大数据未被合理价值挖掘 分布式架构挑战 n 维护对象: 系统节点、微服务数量几何级数增加 n 调用关系:从简单对应到极其复杂,人力维护无法胜任 n 数据分片、异地存储,传统维护模式难以为继 运维生态挑战 n 工具重复: 工具按烟囱式建设,能力分散 n 能力割裂:运维工具能力割裂不成体系 n 数据孤岛: 应用、数据库、 中间件、云平台、 基础设施各管自身 集团 + 省分 几百套系统 跨系统全链路 定界诊断 故障自愈 混沌工程 主动预防 变更追踪 变更管控 集团 + 分子公 司 整体态势感 知 体系建设 故障发现 与诊断 故障恢复 与应急 故障预防 故障调度 体系演进 稳定性保障工具建设历程 稳定性保障工具的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案 与目标规 划,充分借鉴与对标先进的行业经验,从“走出去 ”到 ”引进来“,逐步由工具产品化至制度、管理体系 化转 变的过程。 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 • 工具化建设 2019 故 障 管 理 产 品 线 自 动 化 运 维 产 品 线 配 置 管 理 产 品 线 稳 定 性 测 试 产 品 线 监 控 管 理 产 品 线 自动化 智能化 无人值守 工具化 产品化 体系化 平 台 工 具 保 障 制 度 规 范 保 障 组 织 架 构 保 障 运 营 机 制 保 障 2020-2021 2022-2023 监 控 工 具 测 试 工 具 运 营 响 应 工 具 基 础 能 力 线 • 体系化建 设 产品化建设 • 稳定性保障工具建设历程 一个目标,依托四大保障,聚焦研运流程中四个阶段,对应十五项核心工作,严格把控七个关口,将 安全生产 稳定性保障左移,在入网控制时介入,对入网控制、发布上线、故障预防、故障发现、故障定位,故 障恢复、 故障改进提供端到端工具支撑。 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 做实安全生产,提升 IT 系统稳定性 核心业务链路深度治理 设计关 验证关 上线关 变更关 监控关 应急关 优化关 平台工具保障 组 织 架构保障 运营机 制 保障 制度规范保障 运营支撑 生产变更 研发测 试 架构设计 研 发 测 试 版 本 管 理 重 保 管 理 故 障 改 进 故 障 定 位 变 更 管 理 容 量 管 理 监 控 管 理 链 路 识 别 故 障 演 练 故 障 应 急 故 障 预 防 故 障 响 应 故 障 发 现 稳 定 性 架 构 设 计 02 稳定性保障工 具 落地场景及成 效 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 1 、系统深度健康体检,全链路性能隐患分析 2 、系统容量隐患深度分析 3 、统一隐患闭环治理 1 、故障事前制定应急预案与应急演练 2 、故障事中形成故障、监控、调度态势感知能力,实现 业务快速抢通 3 、故障事后治理追踪全流程线上化闭环管理,确保故障 经验有效沉淀,整改措施有效落地 1 、涵盖业务层、前端触点层、网关层、应用层、组件 层、资源层的全链路追踪 2 、指标、链路追踪、 日志三位一体斧实现故障快速发 现、根因准确定位、故障快速恢复、问题深度刨析 1 、全层级变更追踪 2 、任务流程线上化绘制、管控,统一入口管理调度 3 、技术监督实现变更管控 稳定性测 试 故障管理 1 、全链路读、写压力测 试 、评估链路容量水位 2 、接口、 UI 自动化巡检及时发现业务异常 故障 自愈 告警、诊断、自动化作业能力组合贯穿‘监 ’与 ‘控 ’, 实现多场景故障自愈 稳定性保障工具聚焦 领域 变更追踪与管控 全栈可观测性 隐患 管理 数字化监控 平台聚焦 云平台 应用 核心业务 前端触点 数据库 中间件 网络 主机 网关 业务发展量、业务流程积压量、业 务突变异常、业务关键稽核点等 核心业务场景、核心业务环节、核 心业务链路拓扑 白屏、慢响应、弹窗日志等 卡顿、崩溃、错误等 调用量、响应时间、异常量等 应用调用 trace 方法调用明细 云平台健康度、集群节点、 pod 容 器指标 网 关 : KONG 、 LB 、 Nginx 等 中 间 件 : Kafka 、 MQ 、 Zookeeper 等 数 据 库 : MySQL 、 Clickhouse 、 Elasticsearch 等 主机: 内存、磁盘、 CPU 、网络 指 标等 网络出、入流量、并发会话数、连 接数等 数据中心、网络设备、主机 拓扑映 射关系 系统方自定义 Promethues exporter 调用链接口业务打标 告警配 置 核心场景、核心业务链路 人工梳理上报 浏览器 JS 埋点 AP P S DK 调用链 agent 采集 应用指标、 trace 云平台维护方自定义 Promethues exporter Promethues exporter snmp 协 议 + Promethues exporter 网络拓扑同步上报 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 实现涵盖业务、前端触点、应用、云平台、组件、基础资源的全层级指标数据采集及标准化,统一接入、存 可观测性建设: 指标 Clickhouse 应用时序指标、 trace 、 方法调用明细 标 签 规 范 标 准 + 自 定 义 Prometheus 业务、服务、组件、资源 时序指标 储、分析处理标准,提供可观测性能力数据基础。 数据可视 监控告警 故障预防 隐患分析 故障诊断 Neo4j+Redi s 拓扑数据 统 可观测性建设: 链路追踪 支持跨系统、跨云平台、跨数据中心链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追 踪和方法清 单级根因定位,接入应用 6000+ , 日均处理 600 亿数据。 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 kafka Flink Clickhouse Collector- server Neo4j Clickhous e 汇总数据中心 系 统 D Collector- server Nacos 聚合后指标 链路计算 清单查询 分数据中心 系统 A 跨数据中心链路自动串连 业务配 置 打标 存储集群 实例 id 、容 器 id 网络设备 主机 ip 、机 房 云平台 链路调用清单明细,方法级分析 告警收敛 根因定位 存储集群 调度转发节点 链路自动拓扑 告警配 置 告警计算 应用性能分析 业务、应用维度链路展现 kafka Redis 告警计算 指标聚合 应用实例、主机 串 联 明细分析 agent agent agent agent agent 链路自动拓扑 全层级告警墙 业务报文查询 应用性能分析 应用根因定位 C M D B 系统 C 系统 B 系统 E Naco s Flink 查询 可观测性建设: 日志分析 通过统一规范的日志采集、分布式存储能力、 日志实时检索与异常检测能力,应对在分布式云化技术架构的演 进背景下,剧增的集中系统日志数据量带来的挑战,解决在较大规模集中系统日志查询和报文查询方面效率低 和不准的问题,提升故障和工单问题定位效率。 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 流式 worker 处理 分布式存储 异常日志判定 主机 组件 应用 其他 数据存储 Clickhous e Pushgatewa y Prometheu s 日志处理、存储、告警判定 S D K 智能日志模版提取 日志处理流程配 置 日志采集 日志应用 采集任务管理 日志探针管控 模版提取 异常检测 报表可视 全文检索 过滤脱敏 日志监控 K a f k a Agen t 在系统纵向全层级方面实现触点层、应用层、组件层、平台层、主机 层 、网络层纵向贯通,结合云化 CMDB 关 联定位,建立故障传递模型,实现全层级一键诊断,端到端快速定位问题根因,当前覆盖 16 套核心系统。 负载均衡 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 1. 发现业务影响 触点 + 业务监控评估影响 范围。 2. 定位根因应用 利用图数据库关系在海量 告警应用中快速定位根因 服务,如 150 个服务告警 根因应用缩小到 5 个左右。 3. 定位根因实例 通过核密度估计算法和 DBSCAN 聚 类 算 法 判 定 根因实例。 可观测性建设: 一键故障 诊断 A C D 链路 Tracing x2 6. 定位网络问题 定位网络及接入设备的问题。 主机进程 Top 日志关联 变更关联 辅助信息 主机 1 主机 2 主机 3 5. 定位根因主机 通过云化 CMDB 获取实例、组件与主 机的 关系,对主机的指标与告警进行扫 描。 4. 定位根因组件 扫描根因应用调用的组件调用链指标、组件 指标、组件告警判定根因组件。 服务 X 有 3 个实例, X3 出现问题 调用 X 分布于 单 A G E N T 指标、报文日志、链路三位一体 Redis1 Redis2 Redis3 Redis 集群 3 个实例, 2 出现问题 A C B - - D 可观测 六步定位法 实现全层级一键诊断 marathon-lb 调 用 量 超 时 量 异 常 量 失 败 量 . . . 停开机 缴费 开户 K O N G 交换机 防火墙 路由器 指标 Metric s 请 响 异 . . 报文 Logs 智能诊断 求 应 常 报 日 文 志 x3 x1 B GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 可观测性建设: 一键故障诊断 案例 Redis 事件异常: 2022-08-XX XX:XX redis 节点夯死,触发高可用,切换 master ,大量流量进入导致 redis 性能 下 降,上游应用大面积告警是故障根因 应用实例事件异常: 2023-03-XX XX:XX 应 用 实 例 所 在 主 机 CPU 使 用 率 过 高 引 发 故 障根因 ES 事件异常: 2022-05-XX XX:XX es 进程负载率突增导致上游服务连接超时 是故障根因 快立方内存数据库事件异常 : 2023-02-XX XX:XX 根因应用下游调用快立方告警异常是故障 根因 网络事件异常: 2022-03-XX XX:XX 交换机 带宽使 用率指标打满引起访问受限 是故障根因 RDS 事件异常: 2023-04-XX XX:XX rds 慢 sql 突增导致节点状态异常是故障 根 因 Oracle 事件异常: 2023-02-XX XX:XX oracle 会话数突增导致应用连接超时增多 是故障根因 主机 宕机 事 件导致 lb 异常: 2022-08-XX XX:XX lb 所在主机 宕机 导致 lb 实例销毁重启服 务 波动是故障根因 当前一键故障诊断率达 68% 。 沉淀 关联 告警 + 故障诊断 + 自动化运维 + 应急能力,实现事件根因自动诊断,诊断结果结合故障知识树分析,自动完 成应 用实例查杀、重启、扩容、组件主备切换、流量限流、磁盘清理等多种故障自愈场景,月均自愈作业执行 1000+ 次,自愈操作平均执行耗时 3s 内。 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 故障 自愈 作业调度执行引擎 2023-09-07 16:21:29 运维人员确认操作 2023-09-07 16:21:34 应用恢复 任 务 调 度 平 台 告警 信息 先查异常实例 -> 登 录 云 平 台 执 行 查 杀 操 作 5 min 运 维 场 景 自 动 化 作 业 平 台 探 针 能 力 2023-09-07 16:20:47 推送实例查杀、重启工单 操作 / 脚本 作业编排 执行计划 智能自愈 判断逻辑 引擎 自 愈 工 单 审 批 自 愈 工 单 生 成 从 收 到 告 警 到 恢 复仅用 47s 2023-09-07 16:20:45 自动触发诊断 自动化运维 agent (物理机) 告警 配 置 2023-09-07 16:20:45 应用告警 基础资源运维 场景 业务服务运维 场景 应用系统运维 场景 运维 PaaS 平台 运维专家 外 部 能 力 云平台 节省 4 分 钟 推送 审 批 深度性能问题分析 B D C 看表象 l 链路节点 RT 增长 -> 初步定位瓶颈节点 l trace 明细分析 -> Gap 等待时间长、 自耗时高、慢 SQL... l 链路调用量 -> 重复调用问题 …… 解释表象 l 线程池、连接池是否打满 l 慢 SQL 分析 l 内部方法自耗时高原因 l 重复调用是否可优化 …… 性能治理 l 压测 结 论、问题、论证、优化方案 l 与研发侧确认问题、推动治理 l 复 测 从容量隐患、链路隐患、系统健康度视角,定期开展隐患评估与预测,识 别 潜在风险隐患,隐患闭环治理,保 障系统健康稳定和对资源利用的最优化。 评分与趋势 高风险指标 中风险指标 低风险指标 l 全链路压测 - > 容 量标准达标 、 链 路性能瓶颈评 估 ... l 日常流量方法级 分 析 -> 抖动 、 不 达标率 ... l 指标实时监控 -> 容 量风险监控 ... l 对照保障 目标 , 形成容量优化提 升项 l 制定容量优化方 案 计划 l 容量再评估直至 符 合预期容量标 准 要求 …… GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 组件层检测 l ES 健康节点 / 堆内存使用率 /... l REDIS 内存使用率 / 内存碎片比率 l KAFKA 消息积压 /topic 副本 …… 资源层检测 l 内存使用率 l cpu 使用率 l 磁盘使用率 …… 1 2 页面层检测 l 页面弹窗数 l 页面 JS 错误 l 页面平均响应时长 …… 服务层检测 l 服务超时率 l 服务异常率 l 服务调用量 l 服务平均响应时长 …… 系统隐患 预防 定位性能瓶颈节 点初步定位 整体报告生成 推动治理 健康检测 引 擎 l 业务、应用、组件、基础 资源容量水位模型 容量标准制定 性能对比 隐患报告定时推送 风险问题闭环整改 实时监控体检 运营闭环管理 容量问题优化 目标容量评估 3 A …… 自动获取全层级核心黄金指标,通过 AI 算法分析,优化层级实体健康度算法模型,进行全层级隐患分析,实 现 系统健康状态档案化管理,分析系统潜在问题,保障核心业务连续性。 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 系统隐患预防: 系统健康检查 案例 6 0 0 0 + 高风险隐 患项 压降 98%+ 1 0 0 高 风 险 隐患项 前 端 触 点 层 、 应 用 层 、 组 件 层 、 资 源 层 系统风险隐患闭环治理 系统风险隐患持续压降 系统健康实时评分 cBSS 系统高风险隐患治理成效 系统全层级实时健康度评分 高、 中、低风险隐患压降 隐患派单闭环治理 健康度评价详情 风险项对比 collector 调用链数据 处理 增强调用链探针能力,使之具备流量染色与流量隔离能力,实现全链路读、写流量压测能力,有效评估业务 容量水位,全链路节点性能瓶颈定位。 GO PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 监控压测一体示意图 多云环境 压力机 创建压力机 稳定性测 试 : 端到端全链路 压测 主要能力 压测 报告 档案化管理 调用监控数据、压测数据 数据预处理 全链路压测 数据处理 接口挡板 s
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
22 页请下载阅读 -
文档评分


小米之家新零售、数字化转型实践