华为:2025年华为混合云现代化运维体系核心能力及最佳实践报告
8.80 MB
53 页
0 下载
5 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
华为混合云现代化运维体系 核心能力及最佳实践 政企而言,IT架构建设作为组织战略目标实现和业务创新发展的核心引擎,是一项战略 性、系统性工程,然而IT架构的建设往往不会一蹴而就,而是会随着技术革新逐渐引入 新的平台、新的产品和技术。因此,政企IT架构的发展演进进程中普遍存在不同架构、不同代 际、不同厂商平台并存的情况。运维人员需要全面了解不同平台的部署、升级、维护等操作,这 不仅增加了运维人员的工作难度,自动化运维工具的推行也变得举步维艰,使得运维工作变得极 为复杂和繁琐。 随着政企数智化进程的加速,混合云作为一种灵活、可扩展且安全的云平台解决方案,已逐渐成 为政企用户数智化转型的首选IT架构。然而,随着云上业务需求不断增加,云服务资源类型日益 丰富,传统的IT运维体系已经难以应对混合云环境下复杂的技术架构和多变的业务需求。 为了应对这些挑战,对混合云运维系统架构进行现代化升级势在必行。华为混合云基于自身云平 台运维经验,以及服务数千家政企客户的数字化转型实践,持续积累面向现代化的核心运维能 力,并沉淀构筑了一套全面构建稳定可靠的现代化运维能力的路径和方法。通过运维现代化核心 能力,期望能够帮助政企客户从传统架构运维到云化架构运维转型,以数字化和智能化为驱动, 构筑混合云现代化运维新体验。 其中,运维体系作为混合云运维能力建设的基础性、系统性工程,面临着对技术、组织、制度需 进行系统性重构的巨大挑战,其核心在于通过数智化的运维体系实现“效益”、“效能”、“效 率”、“效果”的最大化。 效益:指经济效益,包括可盈利或其他与盈利相关的要素。运维要以效益为目标,对准业务价 值匹配业务发展和架构演进,实施运维改进和提升。 效能:指服务能力,是支撑运维活动顺利进行并达到预期效果和效率的保障。在运维活动中不 断提升服务能力,包括对新技术的掌握、新的工具的使用等,及时应对新技术架构的挑战。 效率:指在运维活动中,得到的结果与所使用的资源之间的关系。在运维工作中,要不断提升 作业效率,用更少的资源交付更好的结果。 效果:指运维活动达成的结果,衡量是否达到需求或者预期的目标。运维要达到流程、服务或 活动的目标,并有切实的成效。 围绕这“四效”目标,政企客户需要围绕运维制度规范、运维组织、运维业务、运维知识库、运 维平台和运维安全这六大维度进行核心能力的演进设计与持续构建,以不断提高云平台运维管理 水平。 本文将对如上六大核心能力领域的建设路径和方法进行详细阐述,并通过某集团客户的实际建设 案例向读者提供可落地的最佳实践参考,期望对广大混合云用户面向现代化的运维能力提升带来 一些启发和思考。 序 言 P R E A M B L E 对 目 录 C O N T E N T S 混合云现代化运维体系参考架构 07-43 2.1 混合云现代化运维体系建设背景 2.2 混合云现代化运维体系建设思路 2.3 混合云现代化运维体系参考架构 2 混合云现代化运维体系核心能力 09-43 3.1 运维规范与流程设计 3.2 运维组织设计 3.3 运维业务设计 3.4 运维知识库设计 3.5 运维平台设计 3.6 运维安全设计 3 混合云现代化运维体系落地实践 09-43 4.1 建设背景 4.2 运维痛点分析 4.3 运维体系规划设计 4.4 建设成效 4 混合云现代化运维理念概述 04-061 混合云现代化运维理念概述 华为基于三千多家混合云用户的运维场景和诉求,结合多年来累积的政企客户运维服务实践,参考华为混合云 以及华为公有云的运维经验,提出了混合云现代化运维顶层设计参考架构,将混合云运维划分为四大领域,分 别为“运维体系现代化”、“平台运维现代化”、“应用运维现代化“和“安全运维现代化”四个部分。 运维体系现代化 运维体系现代化定义了在混合云进入深度用云阶 段,应该建设什么样的运维体系适配业务的发展, 包含运维流程规范、运维组织、运维业务、运维知 识库、运维平台、运维安全等多个方面,帮助政企 实现从当前运维体系向现代化运维体系的升级。 平台运维现代化 云平台技术栈的快速增长给云平台运维带来巨大挑 战,这些挑战涉及日常运维、主动预防以及故障恢 图1.1 混合云现代化运维顶层设计参考架构 运维体系 现代化 统一化 运维体系 运维体系升级 IT架构演进升级 平台运维现代化 极简性 运维体验 极简信息汇聚 极简运维操作 极简管理决策 预见性 风险治理 风险预防管理 变更风控管理 混沌工程演练 确定性 故障恢复 可用性指标构建 全链路可观测 故障感知与快恢 云网定位定界 应用运维现代化 高可用 架构设计 高可用SLA规划 应用高可用设计 高可用治理 端到端 应用运维 应用数据治理 运维故障分析 安全运维现代化 无死角 安全管控 用户授权可控制 作业过程可信赖 合规遵从高等级 体系化 租户安全 云原生安全 全栈端到端安全 智能安全管控 混合云现代化运维设计参考架构 数字资产&运维能力迭代 云运维团队组建 运维团队管理流程经验 运维人才培养机制 运维团队能力沉淀 运维专家经验知识库 运维脚本、故障模式库 智能客服 运维资产智能转型 统一运维管理平台 远程运维工具平台 数字化运营平台 运维工具持续创新 复等方方面面,华为在每个领域都提出了运维现代 化改进的方案:极简性的运维体验应对政企混合云 运维投入人力有限的场景,保证混合云运维效率; 预见性风险治理帮助政企客户实现风险的提前感知 与预防;确定性故障恢复则给出了在云与业务耦合 度日益加深的背景下的最佳答案。 应用运维现代化 当前,越来越多的用户将关注点从云与设备运维转 向应用的运维,尤其是承载着经济乃至国计民生的 05 核心应用的运维受到运维管理者额外的重视。将应 用的可靠性保障前置到设计阶段,通过高可用设计 提升应用的可靠性。同时在应用运维领域,存在多 种多样的工具与技术,工具之间数据割裂无法形成 全局的视野,直接影响了应用运维的效率与效果。 只有打破各个工具间的数据孤岛才能统筹洞察应用 的完整运行态势,对应用进行全方位的监控与分 析。 安全运维现代化 运维安全是保障业务可靠性的基石,也是运维现代 化的基础。在运维安全领域,需要通过全面的安全管 控保障运维安全:事前实现对权限的有效规划和管 理,事中实现运维操作的严格管控,事后实现对运 维操作的审计与分析,减少因运维误操作带来的风 险。在租户安全维度,通过构建完整的安全防护体 系,实现端到端保障混合云的租户安全。 上述的能力均建立在将混合云运维的数字资产不断 地迭代和衍化的基础之上,通过将运维经验数字 化、智能化和服务化,不断将新的运维能力孵化出 来,注入到运维工具、运维脚本和运维服务中,持 续赋能政企混合云,实现混合云运维的现代化。 混合云现代化运维体系参考架构 2.1 混合云现代化运维体系建设背景 政企客户在云化数智转型过程中,传统基础设施与云原生平台长期共存,运维部门要长期面向混合架构建立面 向多云多数据中心的协同管理能力,包括组织、流程、工具、平台等,因此构建面向混合架构的统一运维管理 体系势在必行。 08 根据华为混合云过往几千家客户的运维服务经验, 政企客户在运维体系建设落地过程中,普遍面临如 下几个方面的挑战: 运维流程如何适配:业务运维和平台运维的流程 难以衔接 运维组织如何规划:缺乏运维岗位设置、职责分 工、人员配比等方面的经验 运维能力如何构建:需要什么样的人员,怎样快 速提升运维人员整体水平 运维平台如何建设:运维工具、平台怎样整合, 如何提升自动化水平 演进与治理 政企存量IT架构 混合云现代化架构 统一运维运营管理体系 图2.1 统一运维运营管理体系 传统非云架构 ERP 智慧应用 虚拟化资源池 FusionSphere/VMware/… 存量云化架构 大数据 服务 数据库 服务 云管理 服务 计算 服务 存储 服务 网络 服务 现代化云化架构 服务器 存储 网络 服务器 存储 网络 政务 财务 交通 政务 财务 交通 金融 制造 交通 政务 能源 全栈云服务 数据库 | 大数据 | 大模型 | 软件开发工具链 智能中间件 分布式消息 | 微服务引擎 | 分布式缓存 分布式调度 | 单元化管理 现代化基础设施 高安全 | 高可用 | 高性能 | 高可维 运维知识库如何管理:如何建设行之有效的运维 知识库,如何对运维数据有效治理 运维安全如何保证:如何建设全面、高效的运维 安全保障体系 这些问题并非孤立存在,而是相互交织构成了政企 数智化转型道路上的系统性瓶颈。面对上述挑战, 单点零散的改进显然已力不从心,因此,突破单点 瓶颈,构建一个具备持续演进能力的现代化运维体 系,已成为支撑政企业务可持续发展、实现战略目 标的关键系统性工程。这就要求政企用户跳出“救 火式”思维,以体系化、工程化的视角,重新审视 和规划适配业务智能化发展的现代化运维体系建设 路径。 首先,针对混合云运维体系,华为云提出以“四效”为目标,不断提升运维价值和运维能力。“四效”分别是 效益、效能、效率和效果。 其次,针对设定的运维体系目标,从业务感知能力、分析决策能力、自动化能力、可视化能力四个维度设置合 理的成熟度指标,对运维体系的发展阶段进行数字化衡量。 2.2 混合云现代化运维体系建设思路 混合云现代化运维体系建设应当设置明确的目标, 聚焦运维带来的价值以及能够沉淀的运维能力两个 方面进行考量,使得运维产生的收益最大化。基于 目标设计运维体系的成熟度模型,设置不同维度的 考核指标,评估运维体系建设目标的达成情况以及 效益 图2.2 现代化运维体系建设目标、成熟度评估维度与落地建设思路 运维体系“四效”目标 运维体系成熟度评估四大维度 运维体系建设落地思路 输入 持续改进 业务感知能力 分析决策能力 自动化能力 可视化能力 运维建立与转换 运维规划与设计 运维提供与支持 运维改良 效率 0100 1010 0101 效果 战略意图 业务设计 技术演进 效能 +- ×÷ 效益 在实现目标过程中的不足,并加以改进。 “实践是检验真理的唯一标准”,一个好的运维体 系最关键的衡量标准就是可落地性。运维体系在落 地过程中,需要各个部门密切配合,相互磨合并且 持续改进,最终形成最符合政企现状的运维体系, 持续保障业务稳定运行,支撑业务持续健康发展。 表2.3 运维体系成熟度评估标准 评价维度 评价标准 指标举例 业务感知能力 应用请求成功率 应用请求平均时延 运维人效比率 平台资源使用率 运维自动化率 变更成功率 资源统计报表 运维可视化程度 通过云上业务系统经营指标、运维指标、服务可用性指标等指标判断业务感知能力,指标 覆盖越全面,业务感知能力越好 分析决策能力 通过资源使用率、运维人效比、运维投资收益率等一系列指标为分析决策提供输入,指标 覆盖越全面,分析决策偏差越小 自动化能力 通过运维自动化率、变更成功率等指标判断自动化能力,指标越高,说明自动化能力越高 可视化能力 通过对平台、应用、运维事件进行多维度统计判断可视化能力,指标覆盖越全面,可视化 能力越好 09 10 图2.4 混合云现代化运维体系参考架构 规范与流程 安全管控 故障定级规范 业务上线规范 业务变更规范 运维数据治理规范 故障处理流程 应急恢复流程 运维业务管理 变更管理 爆炸半径管理 问题与故障管理 云网跨域协同 事件管理 运维事件、变更事件 监控管理 全链路监测 服务台 配置管理 配置一致性管理 性能管理 限流管理、上线压测 风险管理 应急与混沌工程 版本管理 维保管理 运维知识库管理 运维数据管理 流程数据管理 产品生命周期管理 EOX管理、版本变更 知识库管理 案例库、风险库 局点档案管理 云平台档案、应用管理 运维平台治理 统一CMDB 运维数据接入 统一故障处理 运维可视化 运维自动化 运维组织治理 组织架构 岗位职责 人员绩效 人才管理 组织协同 数据安全 人员安全 IT安全 作业可信 物理安全 最后,通过对目标用户的战略意图、业务现状、技 术演进等方面进行全面的调研,作为统一的业务输 入,对运维体系进行规划和设计。 此外,运维体系的实施也不是一簇而就的,而是在 试行过程中,综合各个方面的反馈持续优化改良, 从而逐渐建设出符合用户实际业务发展需求的运维 体系。 2.3 混合云现代化运维体系参考架构 运维体系建设目标和成熟度评估模型建立之后,需 要着手设计运维体系架构。传统的运维体系一般包 含组织、流程、工具等几个组成部分,华为混合云 结合自身实践及数千家客户服务经验,在传统运维 体系基础上,围绕“四效”目标,总结提炼了适配 政企客户现代化运维体系所包含的核心要素以及运 维体系建设的参考架构: 1、运维规范与流程 通过“因地制宜”制定运维规范,树立运维制度和 流程,指导各项运维工作依规有序进行。 典型的运维规范包含业务故障等级定义、业务上 线规范、业务转维规范、运维数据治理规范等。 典型的运维流程包含故障处理流程、应急恢复流 程、主动运维流程、变更流程等。 典型的指标度量体系包含告警响应及时率、事故 恢复及时率、事故数量、变更成功率等。 2、运维组织治理 根据用户实际情况定义运维组织架构,识别关键运 维岗位,明确岗位职责,按照岗位承担的职责和定 义的人效比,为岗位配置预期数量的人员以及人员 的绩效考核条目。涉及周边组织协同配合场景,需 要明确周边组织的协同职责,无隶属关系的组织需 要报请上级部门协调,确保职责落地。 3、运维业务管理 运维业务管理主要是针对服务内容进行定义,可以 分为服务请求、故障修复、业务变更及主动运维这 四大类。 4、运维知识库管理 运维知识库管理主要面向对运维资产积累有一定诉 求的中大型政企客户。基于云平台或业务运维过程 中产生的运维数据,如问题单、案例库、变更方案 等进行数据治理,生成运维知识库,对运维风险进 行AI预测等增值类工作。 5、运维平台治理 运维平台治理按照业务属性划分一般涵盖两部分能 力:平台运维和应用运维。平台运维管理对象是不 同架构、不同代际的云平台,应用运维管理对象是 客户业务系统,通过构建统一运维平台实现运维数 据的统一接入、数据汇聚治理、运维可视化呈现, 支撑运维各项工作有序进行。 6、运维安全管控 运维安全体系主要包含数据安全、IT安全、人员安 全、物理安全、作业可信等几个方面,通过法律法 规、业界安全标准、用户安全要求的约束,系统化 构建运维安全体系。 混合云现代化运维体系核心能力 13 3.1 运维规范与流程设计 随着政企客户业务全面快速上云,面向传统数据中 心的运维规范和流程已经无法适配业务的发展要 求,比如业务上云规范、业务转维规范、数据治理 规范等等,都是传统运维规范中缺失的内容,因此 面向云上业务的规范、流程、度量指标的建设是政 企客户的迫切诉求。 3.1.1 运维规范 表3.1 故障等级定义 故障等级 定义 1 出现严重故障,对客户网络和业务运营造成严重影响。涵盖最终用户在使用过程中发现的所有服务中断或网络 功能损坏类事件 2 对业务运营造成显著影响。故障有可能导致业务中断。产品部分操作不可用,但是仍能使用,对用户相关的领 域没有影响,或影响可以设法规避 3 对业务运营造成有限的影响。故障并不影响网络服务或功能。产品仍能运转,但功能受限。此类情景不紧急, 并未对客户整体业务运作造成严重限制 4 咨询类问题,包括在日常运营和维护过程中关于产品的功能、说明书、运作和构成等方面的咨询 图3.2 业务上线规范 上线后评估 问题反馈机制 问题总结 文档更新 上线监控 监控指标 回退机制 上线实施 变更管理 上线保障会议 上线窗口 上线前准备 实施方案评审 测试计划 环境准备 备份方案 上线标准 关键告警清零 平台巡检通过 预警整改完成 云服务许可检查通过 业务 上线 管理 活动 所需交 付文件 实施方案 上线业务清单 系统账号清单 测试报告 上线评审checklist 典型的运维规范包含业务故障等级定义、业务上线 规范、业务转维规范、运维数据治理规范。通过标 准化的规范和流程来提升系统的稳定性、安全性和 高效性。 业务故障等级定义 在故障处理过程中,可以根据不同的故障等级,调 集相应的资源处理问题,有效提高故障处理效率。 按照故障影响,故障划分为四个等级,即P1/P2/P3/ P4。 业务上线规范 新业务或系统功能上线时所需遵循的一系列标准和流程。这些规范旨在确保上线过程的顺利进行,减少系统风 险,提高业务的稳定性和可用性。 事件记录 1 事件申请单 问题管理流程 变更管理流程 更新的事件 记录知识库 事件解决方案 2 1、服务台接收事件信息进行记录,包括事件时间、位置、影响等关键事件信 息;事件来源包括服务请求监控告警、主动运维发现故障等。 2、根据事件等级定义,对发生事件进行分级确认:一般事件进行事件分派操 作,重大事件进行重大事件处理流程处理; 3、根据业务类型进行事件分类,根据事件类型进行事件派单,不同的事件类型 派单至不同的处理人员; 4、事件处理人认领、诊断和处理事件,并形成解决方案;如果不能解决则升级 到厂商支持; 5、云服务厂商远程协助现场进行事件处理,提供帮助:一线无法处理事件时, 及时接收事件并根据事件给出相应的解决方案; 6、确认事件是否处理完毕,相应故障或请求是否处理完成,故障或请求已处理 完成,关闭事件工单;故障或请求未处理完成,将事件工单转至问题管理。 监控告警/巡检/业务请求 输入/外部流程 活动描述 服务台 云平台 运维工程师 远程支持 输出/外部流程 重大事件处理流程 事件接收与处理 4 事件关闭 6 是否解决 事件分类和分派 3 一般事件 一般事件 是 否 事件接收与处理 5 事件分级 图3.3 故障处理流程示例 14 业务转维规范 业务转维规范主要明确站点转维标准动作及交付 件,确保项目转维各流程顺利进行。规范转维管理 过程,明确网络安全责任边界和转维关键角色职 责,确保项目转维人力按时到位,通过完善项目转 维流程建设,更好地降低站点的运维风险。 转维总体分为转维准备、转维自检和转维交接三个 阶段,每个阶段对应关键的转维动作和标准交付 件,以及相关责任人。 运维数据治理规范 智能运维是运维发展的高级阶段,亦是必经之路。 切实落地智能运维,需要三个要素:数据是基础, 场景是导向,算法是支撑。因此,运维数据是构筑 智能运维的基石。 与业务数据相比,运维数据有其自身的特点和治理 难点,例如数据分布分散,数据标准化比例低,缺 乏成熟的方法等。运维数据治理贯穿于数据生命周 期,从规划设计,到实现和维护,再到应用和
| ||
下载文档到本地,方便使用
共 53 页, 还有
2 页可预览,
继续阅读
文档评分


华为质量管理体系解读