ppt文档 2026智能化IT监控运维管理平台建设方案 VIP文档

2.67 MB 36 页 5 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
智能化 IT 监控运维管理平台建设方案 PART 01 IT 监控运维现状及痛点 加入星球获取更多更全的数智化解决方案 对企业 IT 监控运维的基本认识 IT 系统架构 机房环境 硬件设备 网络 中间件 业务 数据 系统 应用 IT 监控运维 业务运营 人 员 方 法 流 程 工 具 可用性 成本 连续性 性能 体验 设备故障 系统异常 系统故障 系统变更 企业 IT 监控运维的核心使命就是保证企业业务的正常与高效运 系统监控 维修更新 业务保障 应用反馈 企业信息与数字化的迅猛发展,给 IT 运维带来了全新的挑战 故障类型 越来越多 业务变化 越来越快 CIO 业务中断 容忍度更低 用户体验要 求越来越高 系统变更 越来越频 故障排查、 修复更难 系统架构 越来越复杂 系统负载更 大、故障风 险高 新系统上线 越来越多 业务访问量 快速增长 业务处理 时效性更高 高层对 IT 部门考核更 严 技术快速 演进与新 技术应用 人员技术 能力与经 验不足 人员成本 越来越高 知识经验 无法沉淀 构建主动式的 IT 监控与运维将成为必然所趋 被动救火式维护 主动巡防式监控 定时粗略巡查 等待故障报告 人工故障处理 实时全面监控 分散维护系统 集中监控系统 自动故障处理 提前故障预警  随着业务对 IT 运维提出的要求越来越高,原来传统的被动救火式的 IT 运维模式已经不能 满足企业的要求,无法为业务的发展提供保障  只有借助当前先进的技术,构建主动巡防式的 IT 监控与运维体系,能够提前预防并智能 化处理系统的各类故障,才为业务的快速发展保驾护航,满足企业对 IT 的要求 高风险 低评价 离散化 人工化 低风险 高价值 一体化 智能化 企业当前 IT 监控的现状及痛点 1 应用现状 复杂的智慧社区,其次是 WLAN ,其他基本是单体应 用 2 监控现状 目前,基于 zabbix ,做了 硬件资源和中间件调用 缺少应用层监控 3 异常处理现状 异常发现方式通过人工拨测 应用级异常无监控形式 数据库监控缺少手段、内存泄 露 被动式维护模式 故障发现不及时 故障处理效率低 故障对业务影响 大 系统运行风险高 运维工作量大 服务满意度不高 PART 02 IT 监控运维解决方案 总体思路 全面性 从基础设施、主机、虚拟机、容器集 群、日志、调用链全面具备监控能力 提供多种的监控指标的采集能力及办 法 自动化 具备监控脚本部署的自动化部署 监控主机的监控端口自动发现能力 平台化 加强平台化,所有监控指标统一处理 简化监控技术栈,降低运维难度 业务视角 从业务视角分析故障 从业务的视角来分析故障带来的影响 解决方案 · 构建智能化 IT 监控平台,建立主动式 IT 监控运维模式 人员 支撑 运维工程师 技术工程师 CIO 业务主管 运维主管 信息 推送 工作 支撑 数据 采集 故障 探测 采集 信息 应用服务 中间件 底层系统 基础设施 业务状态 连接 系统 移动应用 智慧社区 视频监控 WLAN … 系统 数据 采集 异常 检测 主动 预警 信息通知 邮件通知 声音告警 报告推送 大屏展示 可视 展示 主动 告警 智能 IT 监控运维管理平台 数据采集 探伤检测 规则配置 智能监控 主动告警 自动修复 数据分析 可视展示 构建主动式 IT 监控运维模式的核心思路与方法 目标:保障业务 & 提升能力 & 降低成本 & 彰显 IT 价值 一体化 建立统一的 IT 监控与 运维体系 平台化 - 集中监控 精细化 全面、精细的监控 提供多种的监控指标 的采集能力及办法 多维度 从多维视角开展 IT 系统的监控与运维 技术 / 业务 / 管理 智能化 故障定义标准化 故障分析模型化 故障巡检算法化 自主化 故障主动探测预警 故障自动修复 部署自动执行 可视化 实现可视化监控 故障告警、处理、分 析可视化展示 基于统一平台,打造一体化监控运维体系,全面提升运维能力 统一智能 IT 监控运维管理平台 统一策略 统一告警 统一操作 集中展示 全面分析 集中监控  所有系统都 纳入到统一 个平台进行 监控  监控信息集 中管理  统一故障与 指标定义  故障的分析 策略设置  故障监控与 预测策略  统一告警能 力支持  统一告警规 范设置  集中告警策 略配置  统一故障告 警处理  统一故障自 动修复处理  统一自动部 署操作  统一信息可 视化展示  统一的信息 发布  集中数据存 储与管理  集中的 IT 故 障分析  全面的故障 与预警报告 分析,优化 IT 运维 知识沉淀、经验传递、能力提升 精细化的监控是主动并全面识别、预防、处理各类故障的基础 统一智能 IT 监控与运维平台 Hypervisor 虚拟化 网络 SNMP SDK 中间件 JMX/CLI 存储 SNMP/SMI-S 服务器 SNMP Agent 数据库 JDBC 新资源 协议 操作系统 网络流量 流量分析 硬件监控 存储监控 基础设施 系统层 中间层 应用层 业务层 vCente Nagios Cacti Zabbix PRTG… 对 象 内 容 层 级 工 具  对 IT 系统所包含的对象、资 源与内容进行细致的分层与 分类  全面连接、监控各类 IT 资源 与内容,全面采集数据  不同类型资源使用不同的监 控与管理工具  通过精细化的数据采集,实 现对 It 系统的多维度、全面 监控与运维 细致的结构化内容分层,是实现精细化 IT 监控的前提 业务层 前端渲染、交易量、访问量、成功率、 响应时间、响应笔数等 应用层 资源占用、服务存活时间、日志大小、 端口存活、 API 调用情况、线程数等 中间件层 队列服务、数据库服务、缓存服务、 配置中心服务等 系统层 CPU 、内存、磁盘、进程数等 基础设施层 机房、网络、硬件等 在精细化基础上从多个维度监控系统,保障业务的可用与连续 T 从技术角度发现故障 从技术的角度来对系统运行 状态进行分析,识别、预测 并排除故障,保障系统可用。 B 从业务视角排除故障 从业务的视角来分析故障带 来的影响,排除故障,确保 系统业务的可用与连续性。 M 从管理视角分析故障 从管理的视角来检查使用状 态与分析故障,确保系统使 用符合企业管理要求与规范。 智能化的监控分析,识别故障并预测风险,构建主动运维能力 智能化 标准化 算法化 模型化 建立故障识别模型  基于体系标准库建立定义故障的数 据模型  确定每个故障、风险、问题的识别 数学模型  可以从不同维度 ( 技术 / 业务 / 管 理 ) 建立多种故障识别模型 梳理故障指标体系标准  基于保障业务,确保系统正常 运行的目标,梳理出金阿卡指 标与故障体系标准  构建监控指标库  构建故障与风险类型库  构建事件、问题与任务类型库 设计故障分析算法  基于故障模型设计自动故障与风险分析的算法  创建 IT 监控与分析任务(监控的系统与内容)  设置自动化算法的执行与调度策略  自动执行算法,识别、预测故障与风险  基于实际效果技术优化、调整算法 标准化程度、故障模型与算法设计的合理性直接决定项目成效 标准化 模型化 算法化 监控指标库 风险故障库 问题事件库 模型库 任务算法库 调度引擎 监控需求 采集数据项 定义故障 定义风险 调用 关联 设计 加载 N N 建立标准、细致的 IT 监控指标库,实现一体化、精细化 IT 监 控 监 控 指 标 库 主机监控 CPU 使用率 内存 使用率 网络 写入 I/O 磁盘 使用率 磁盘 写入 I/O 网络 丢包率 前端监控 页面性 能监控 接口性 能监控 数据库 / 中 间件监控 mysql redis mongo nginx tomcat https oracle 日志查询 应用 日志 应用错 误日志 组件 日志 服务器 日志 主动的故障探测与自动的故障修复,极大提升效率并降低风险 主动 探测 + 预防 主动进行系统应用 巡检和探伤检测 主动预测故障风险 进行潜在故障干预 自动 告警 + 运维 自动告知相关人员 故障与风险信息 自动执行故障修复 或系统部署等任务 自主化 监控运维 平台在全面采集系统各项运行数据后,进行智能化的分析,可以及时识别出各类故障和故障风险,基于此平台会进一步采取 自主化的处理方式,及时修复故障,提前解除风险,以保障业务的可用性和连续性。  平台会主动对系统进行各项指标的探测和巡检,以便及时发现系统故障  平台会基于智能化数据风险,给出故障风险预测提前判断潜在的故障,并进行主动干预,降低系统运行风险  任何故障或风险信息,平台都会及时给予告警 ( 支持邮件、短信、信息、声音、警灯等方式 ) ,通知相关人员  平台支持对 ( 部分 ) 故障进行自动的修复处理  平台支持自动执行系统部署图文 监控数 据采集 主动巡 检探测 自主化 IT 监控与运维总体流程 平台具备了自主化 IT 监控与运维能力,不仅可以进行主动的伤探检测,还可以在发现故障或潜在故障风险后,进行主动的故 障修复处理,实现整个 IT 故障检测与处理的全自动化。 潜在故障风险 自动告警 智能引擎 监控模型 任务调度 读取数据 信息反馈 IT 故障问题 主动故障修复 主动干预处理 预测 识别 监测 发现 处理日 志报告 基于告警策略 自动进行告警 基于 策略 配置 基于 策略 配置 执行修 复任务 部分故障无法直接进行 修复处理,则平台会自 动生成故障处理任务并 指派给相应人员 生成故障工单 生成故障 修复任务 生成风险 消除任务 部分故障 直接分派 人工处理 故障过程 结果反馈 部分风险可 以自主修复 主动式的 IT 故障探测与系统状态巡检,保障业务的可用性 可以利用自动化测试脚本,命令执行,调用接口、模拟操作等方式,主动对 IT 的各项资源以及业务系统的运行状况进检测, 主动发现存在的故障与潜在风险,改变被动等待故障发生的 IT 监控运维工作模式,保证业务的可用性。 IT 故障的主动探测、系统状态自动巡检、业务可用性保障 业务可用测试 网卡 主机 磁盘 交换机 端口 进程 server App 中间件 数据库 负载 设备 App 发现问题 主动巡检 快速修复 告警通知 智能故障分析 业务影响范围 解决告警 硬件可用探测 系统状态巡检 硬件状态巡检 执行测 试脚本 执行检 测命令 调用服 务接口 模拟操 作… 告警策略配置 告警内 容模版 告警 联系人 告警 方式 告警 事件 统一的告警策略配置,自动化监控告警,集中历史事件管理 历 史 告 警 事 件 管 理 监控运维 · 智能引擎 可以在平台上配置统一的事件告警策略,包括 : 告警事情、告警内容、告警方式与告警联系人。平台在监控过程中,一 旦发现符合告警策略的事件,即会自动发出告警,并将告警事件进行统一管理与分析。 实时 监控 数据 读取数据 实时计算 加 载 触发告警 发现 故障 风险 事件 事 件 管 理 集中分析 优化策略  可以定义不同事件 / 风险的等级,然后根 据事件 / 风险等级,设置不同的告警策略  可以定义事件的告警方式,告警联系人员 范围,告警内容等  可以集中配置、更新、管理告警策略 实现自动化 IT 运维,简化 IT 运维工作,提高运维效率 利用平台的自动化运维工具,可以将传统枯燥、重复的运维工作逐渐用机器自动化代替,例如磁盘自动清理据、数据定 时备份、定期服务重启、应用自动部署等,无需人为参与,大大减轻了 IT 运维工作量。 自 动 运 维 日 志 管 理 监控运维 · 任务调度 加 载 任务执行 任务 触发 执 行 日 志 日志报告 任务统计 自动运维策略维护 任务生 效周期 执行触 发设置 任务执 行脚本 任务目 标定义 加 载 临时 运维 任务 手工 新增 任务 使用 策略 自动生成周期 性的运维任务  系统巡检  磁盘清理  计划维护  数据备份  重启服务  关闭服务  应用部署  快照恢复  系统体检  系统发布 支持各种 IT 运维作业 提供可视化的监控与故障数据分析及展示  平台具备强大的大数据分析能力与展 示能力  平台将整合当前与历史监控数据进行 深度分析,分析故障特征,辅助发现 问题根源  平台将对 IT 监控数据全面的分析,定 期输出分析报告,支持企业从传统运 维统计转向智能运维分析  平台具备强大的图形化数据展示开发 能力,支持个性化数据展示开发  平台支持各类图形化的数据展示并支 持大屏设备  提供数据与信息推送功能,支持各种 方式的数据推送方式 数据 分析 信息 展示 信息 推送 方案应用全景示意图 · 打造主动式 IT 巡检运维模式 智能 IT 监控运维管理平台 IT 物联网 大数据 云计算 基础设施 网络 存储 服务器 数据库 中间件 应用服务 业务应用 W L A N 视 频 监 控 智 慧 社 区 移 动 应 用 智能故障分析 大屏统一监控 快速故障修复 信息推送与告警 故障报告 数据汇集 深度分析 发现故障 / 风 险 数据分析 可视化展示 信息推送 报表管理 指标配置 故障模型 算法引擎 监控任务 故障处理 调整算法 查收报告 整体监控 信息配置 处理告警 处理故障 设置任务 数据采集 主动探测 告警、修复 识别、预测 实时任务 定时全面 多维智能 方案应用价值示意图 · 支撑企业 IT 监控运维的智能化升级 预防 •查找潜在风险,提供主动预防策略 预测 •构建模型,预测未来趋势 分析 •分析历史数据辅助根源问题分析 整合 •整合历史监控数据,辅助 IT 系统 综合管理 监控 •监控当前 IT 系统整体运行的状态 搭建智能化 IT 监控运维平台 以大数据分析能力支撑的 智能化 IT 监控运维平台 机器数据分析 传统 ITSM 、 APM 、 NPM 、 SOC 、 Cloud Management 保 障 业 务 、 降 低 风 险 、 提 效 升 率 构 建 智 能 化 运 维 体 系 自主化 智能化 多维度 精细化 一体化 可视化 本解决方案对于企业的核心价值 被动式维护模式 主动式监控模式 离 散 一 体 局 部 滞 后 人 工 缓 慢 快 速 全 面 提 前 自 动 监控内容 故障发现 运维方式 故障处理 保障 业务 提升 IT 价 值 提升效率 降低成本 监控模式 PART 03 IT 监控运维管理平台建设方案 系统建设目标与内容 优先监控四大平台: WLAN 、智慧社 区、视频监控、移动办公。视频监控 和 WLAN 实现与硬件对接 实现自动采集、自动监控、自动告警、 自动运维修复、自动部署 实现巡检规则配置,自动执行巡检, 生成巡检报告 搭建智能 IT 监控平台:搭建部一套智 能化的 IT 系统监控运维平台,基于该 平台实现对各 IT 系统集中监控与维护 平台总体架构 管理控制台 大屏统一监控 自动告警 统一采集平台 统一处理平台 自动采集 智慧社区 WLAN 视频监控 移动办公 自动监控 平台功能架构 数据源层 数据采集层 业务处理层 展示层 基础 设施 服务器 虚拟机 数据库 中间件 容器 应用 服务 能力接口 指标采集 日志采集 链路采集 采集网关 采集存储 指标 配置 采集 配置 系统 配置 服务 配置 调用链 管理 日志 管理 资产 配置 硬件 配置 软件 配置 中间件 配置 告警 管理 通知 管理 数据 分发 同步 接口 异步 通知 管理控制台 视图与报表 大屏可视化 平台技术架构 技术架构 - 监控自动部署流程 监控 控制台 自动化 运维系统 注册中心 目标 服务器 Promethues 集群 1 、构建任务 2 、发布采集 exporter 6 、开始采集 3 、构建成功后回掉通知 5 、普米服务器读取 consul 中注册的服务 4 、发布节点服务器注册到 consul PART 04 成功案例分享 案例展示 案例展示 THANKS
下载文档到本地,方便使用
共 36 页, 还有 8 页可预览, 继续阅读
文档评分
请文明评论,理性发言.