2025年构建多技术融合的湖仓一体化平台,打造银行数据智核新引擎报告
3.74 MB
21 页
456 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
构建多技术融合的湖仓一体化平台 打造银行数据智核新引擎 陕西农信湖仓一体建设实践 数字化转型取得积极成效,形成数字金 融和科技金融、绿色金融、普惠金融、 养老金融协同发展的良好局面。 做好数字金融大文章 目录 项目背景 01 项目方案 创新点及技术实现特点 02 03 04 运营分享 01 项目背景 主要内容:立足自身实际与发展定位,制定推动陕西农信高 质量发展的数字金融战略框架。 政策与需求 国家政策密集出台 • 2019年,人民银行发布《金融科技(FinTech)发展 规划(2019-2021年)》,启动金融科技创新监管试 点探索。 • 2020年,人大发布《数据安全法》、个人信息保护 法》,人民银行发布《征信业务管理办法》。 • 2021年,中央十四五规划纲要指出,要”稳妥发展 金融科技,加快金融机构数字化转型“。 • 2022年,人民银行《金融科技发展规划(2022- 2025年)》 银保监会《关于银行业保险业数字化转型的指导意 见》 国务院《”十四五“数字经济发展规划》。 夯实数据基础 • 2020年,陕西农信启动数字化转 型工作,贯彻新发展理念、立足新 发展阶段,坚持数据驱动业务发展, 持续发挥数据要素价值。 • 面对井喷式增长的数据量及数据应 用需求,当前数据仓库MPP、大 数据平台Hadoop存在数据孤岛、 处理效率低、流转时间长等问题, 难以敏捷高效地支撑业务发展,陕 西农信开展湖仓一体化平台技术预 言及建设工作。 演进路线(一) 结构化数据 贴源 模型 集市 BI 报表 集市 半/半结构化数据 历史 归档 实时 计算 数据仓库 BI 报表 数据湖 结构化数据 贴源 模型 集市 BI 报表 集市 半/半结构化数据 历史 归档 实时 计算 湖仓分体 数据探索 机器学习 结构化数据 模型 集市 BI 报表 集市 半/半结构化数据 湖仓一体 — 湖内建仓 数据探索 机器学习 结构化数据 模型 集市 BI 报表 集市 半/半结构化数据 湖仓一体 — 湖仓分体 数据探索 机器学习 实时 计算 流批 一体 贴源 归档 湖仓分体,数据仓库与数据 湖分离搭建,通过数据交换 平台完成数据同步。 特点: (1)双路建设,双路加载, 耦合度低 (2)互不依赖,使用独立, 管理独立 湖内建仓,将数据仓 库与大数据平台的功 能统一在Hadoop体系 中实现,通过相关的 技术组件,实现数据 的集中存储和统一计 算。 特点: (1)基于Hadoop平 台同时构建数仓、数 据湖,技术栈较为统 一 (2)一套物理体系、 数据统一存储、统一 计算 湖仓并行,数据仓库与数据 湖分离搭建,部分基础数据 共享使用,湖仓间通过相关 技术组件直接实现数据共享, 数据共享较文件方式效率更 高。 特点: (1)湖仓部分基础数据集 中存储、数据共享 (2)根据技术组件优势, 适配不同的数据应用场景, 具备不同技术体系的数据协 同 演进路线(二) 计算任务多,运行压 力大 数据库维保支持不足 GP部署架构不合理 数 据 仓 库 使用时间长,组件老 化 资源不足,扩容迫切 历史服务器多,考虑 利久 大 数 据 平 台 信创总的工作要求,数据平台开展信创改造 数据平台存在部分数据冗余存储、数据共享不足 数据仓库与大数据平台,存在仓重湖轻的问题 数 据 平 台 大数据技术发展、湖仓一体技术架构逐步成熟 金融机构湖仓一体平台建设案例 基础软硬件、相关组件能力逐步提升 行 业 情 况 MRS查询集群 支撑实时计算业务: Ø实时加工:全链路秒级 加工 Ø业务量大:维表千万级/ 流表亿级 Ø高可靠:主备集群容灾 关键组件:Flink、Kafka、 Hudi、DWS MRS实时计算集群 DWS应用集群 MRS批处理集群 支撑高SLA业务查询: Ø高并发 Ø资源独享:物理资源 隔离 Ø高可靠:主备集群容 灾 关键组件:Hbase、 ElasticSearch 、 ClickHouse等组件 查询分析业务: Ø主题数据整合; Ø共性加工层数据处理; Ø面向应用领域的集市 层数据处理; Ø实时数据处理区; Ø系统稳定性高 关键组件: HDFS、Hudi、Spark、HetuEngine、ClickHouse 批加工处理 共性整合 低SLA业务查询,自助分析 聚合层 用数 全域标准化 标准层 贴源层 贴源数据、历史存档 全域入湖 缓冲层 临时缓冲数据 全域入湖 Hadoop技术栈 MPP技术栈 02 项目方案 主要内容:项目建设目标、技术架构、功能架构及数据流 向。 2.1 建设目标 建设目标 01 02 03 04 • 平台采用全栈信创架构; • 围绕数据采集、存储、分析、应用等 全流程开展建设。 搭建湖仓一体化平台,实现全行数 据的高效汇聚和统一管理 • 升级数据平台原有查询服务,提高数 据查询效率和稳定性; • 引入新组件,为业务人员开展BI自助 分析和交互式分析场景提供平台支撑。 提升数据服务能力,丰富数据场 景应用 • 实现批处理、流式计算及流批一体数 据处理; • 提供多样的数据分析能力,满足海量、 复杂且多样化的数据处理需求。 融合多技术组件,强化数据分析 与计算能力 • 规范数据需求、数据研发、数据治理、 数据交付、数据运营等环节; • 形成面向数据全生命周期的标准化实施 工艺流程,提升整个团队协作与效能。 规范开发流程,建立DataOps 研发运营体系 2.2 技术架构 数据源 数据接入 实时 采集 批量 采集 仓模块(GaussDB) LakeFormation 元数据 HDFS | Hudi 数据存储 离线分 析 Hive Tez Spark MR 实时计算 Flink SparkStreaming HetuEngin e(presto) 交互式 分析 ClickHouse 湖模块(MRS) 跨集群数据分析(Hetu) 湖仓一体架构 统一数据服务(数据中台) 共 性 加 工 层 集 市 层 实 时 数 据 区 数字化营销 数字化风控 数字化运营 Ranger 数据安全 Hudi 客户数据 账户数据 设备数据 交易数据 外部数据 架构优势 平台能力 1、支持灵活多样化的灾备方案 • 平台高可用性、健壮性提升 2、交互式查询、自助分析能力 • Hetu引擎跨湖仓交互式查询 • 标准JDBC接口,支持各类BI工具对接 3、管道式数据互通 • 数仓支持通过外表方式访问数据湖的数 据 • 数据初始化、历史数据归档更容易 4、元数据互访 • 仓模块直接访问湖模块元数据,打通数 据访问通道 • 统一管理元数据、权限 5、统一数据服务 • 对接数据中台服务层统一对外提供服务 2.3 功能架构 基础数据区 外部数据 数据门户 数据消费 行内数据 日志文件 埋点数据 XML/JSON数据 源系统文件数据 源系统数据库数据 交易中台 运营中台 数据使用者 业务人员 分析人员 管理人员 运维人员 数据模型管理 资产盘点 数据地图 数据标准 数据质量 数据安全 资产目录 指标 标签 其他数据 应用系统 明细数据 数据 集市层 报送 集市 外部/法 人 数据区 历史 数据区 仓模块 实时 数据区 湖模块 报表 集市 财务 集市 客户 集市 绩效 集市 风险 集市 半结构化/非 结构化 数据区 逻辑加工区 ...... 实时 数据区 明细 数据 汇总 数据 指标 数据 缓存层 贴源层 标准层 通用汇总 数据层 应用 数据层 元数据管理 数据血缘 ...... 人工补录采集 工商 ...... 数据采集/数据交换 数据访问统一入口 ...... 领导驾驶舱 统计报表 知识图谱 数据源 共性 加工层 明细 数据 汇总 数据 指标 库 主题层 湖仓一体 数据管控 司法 税务 征信 政务 监管 核心 信贷 互金 网贷 ECIF 2.4 数据流向 数据流向说明 • 数据先入湖,后入仓; • 湖内规划缓存层、贴源层、标准层、整 合模型,仓内规划共性加工层、数据集 市层; • 标准层,对存量未落标系统进行标准化 梳理,使下游数据处理统一采用标准化 数据; • 目前全行系统落标率达95%,后续待所 有系统落标后,取消标准层。 2.5 部署架构 MRS联机查询分析集群 【50】 MRS实时计算集群 【28】 Gauss应用集群 【22】 MRS批处理集群 【90】 HDFS【65】 ClickHouse【10】 HetuEngine【8】 HDFS【13】 HBase【2】 ClickHouse【2】 Kafka【5】 Gauss【4】 Flink【5】 Redis【3】 HDFS【21】 ElasticSearch【16】 ClickHouse【10】 HBase【21】 Gauss【16】 Gauss【4】 【节点数】 Hadoop技术栈 MPP技术栈 混布 *HDFS同部署组件:HDFS + Hudi + Hive + Spark + Yarn *Hbase同部署组件: HBASE + HDFS ElasticSearch【10】 新集群 管控节点(3) 数据节点(25) 原服务器 管控节点 【 3】 数据节点【 22】 新增: 数据节点【 25】 合计:(50) 管控节点 (3) 数据节点(47) 管控节点,都用新服务器 管控节点【 2】 数据节点【 20】 原服务器 管控节点【 3】 (2管理节点移走控制服 务) 数据节点【 58】 新增:【 29】 控制节点(2) 数据节点(27) 合计: 【 90】 管控节点 【 5】 数据节点【 85】 数据节点 数据节点 数据节点 数据节点 湖仓一体平台总规模:190节点 设备利旧,新增104节点 原则: 1、管控节点比较重要,用高配新机器 2、超过30个节点的集群,管理控制节点 要分开 3、利旧,旧的服务器尽量放到湖仓一体 集群 4、集群改动小原则 5、新的集群,全用新的服务器(Gauss, 实时计算集群) 03 创新点及技术实现特点 主要内容:项目建设创新点、技术实现特点。 3.1 创新点 多集群部署架构, 降低集群间耦合 关系 按照不同组件技术 特性,规划数据层 级设置 DataOps + MLOps提升研发 及数智应用效能 04 DATA 在此添加标题 点击添加文字说明 详情介绍点击添加 文字说明详情介绍 • 多集群部署架构通过独立配置管理各集群资源。 • 多集群间的松耦合设计,便于根据业务需求灵活调整资源分配,满足多样化的数据处理需求 与业务场景。 • 整合数据湖与数据仓库的组件技术特点,根据数据的重要性、使用频率、处理复杂度等,规划 数据层级设置。 • 基于Hudi特性,贴源层、标准层、整合模型层数据在湖内以时序形式存储,大大降低了数据存 储空间,且后续数据处理更加简便,提升数据处理能力。 • 基于DataOps工具建立数据研发运营体系,构建贯穿数据全生命周期的标准化实施路径,显著 提升团队协作效率与整体效能。 • DataOps与MLOps的无缝对接与协调运作,实现模型与数据的紧密集成,确保模型能够实时获 取到最新的数据进行训练和推理,为知识图谱构建等提供数据支撑。 3.2 技术实现特点 多源异构数据统一采集存储 • 搭载统一的数据采集工具,以 标准化方式接入多源异构数据; • 采用分布式存储技术,将数据 存储于数据湖内,打破数据孤 岛。 Hetu引擎实现数据协同 • 基于Hetu引擎,实现湖仓内 GaussDB、Hive、HBase、ES、 ClickHouse等海量异构数据的秒 级交互式查询。 DSG+Kafka+SparkStreaming+Flink+Hudi 实现实时数据计算 • DSG实时捕获数据库的变更数据,将 数据推送至Kafka消息队列; • Sparkstreaming、Flink、Hudi实现 海量数据的实时计算与高效存储。 3.3 项目过程管理 项目过程管理主要工作涵盖计划管理、风险管理和质量管理三大领域,具体如下: 风险管理 • 根据同业实施经验识别潜在风险; • 制定预防、规避措施及应急方案等; • 持续监控风险状态,及时识别、发现新的风险; ——项目经理、PMO、 科室负责人、部门领导 质量管理 ——项目经理、SQA、 项目成员、架构科、PMO 涉及人员 分类 措施 计划管理 • 制定可操作性的项目计划(总体计划、详细计划); • 建立项目沟通机制(定期会议、邮件); • 加强进度监控(晨会、周会、评审会议); ——项目经理、PMO • 遵循技术规范; • 产出物评审; • 加强团队成员质量意识。 • 制定质量标准及验收标准; • 各阶段测试; 04 运营分享 主要内容:运营情况、项目成效及经验分享。 4.1 运营情况 数据量 接入系统 实时指标 每日任务数 日均交易量 日处理实时数据量 湖仓一体化平台作为全行统一的数据归集与处理中心,承担了全行 各类数据处理任务 日终批量:为73个系统提供9600+日终文件 自助分析:平均每日为行内业务人员、数据分析人员提供自 助式分析任务8000个 日间交易:为全行 个业务系统提供500+支查询服务 营销 运营 风控 自助数据分析 经营分析 交易反诈 BI报表 实时大屏 资金流向 联机查询 客户画像 4.2 项目成效 提升批处理能力 降低数据处理时延 强化数据服务能力 DataOps驱动交付 效能提升 2.5小时 6小时 批处理能力 40% • 运用checkpoint点及夜间校 准等手段,保障实时数据的准 确性。 • 移动驾驶舱、可视化大屏等 520个实时指标。 • 构建数据集模型,执行离线 计算、实时计算; • 增强交互式查询和深度分析 能力; • 平均耗时200~400ms。 • 融合敏捷开发与数据运维; • 通过自动化流程管理,持 续集成与部署,提高数据 研发效率; • 促进团队协作更加高效。 • MR引擎 TEZ引擎 • 规范数据流向,数据先入湖 平台投产上线后,有效解决了原先大数据平台和数据仓库平台独立部署,集群间通过数据文件交互, 且跨平台数据搬迁,存在数据存储冗余、资源浪费、消耗大量时间、代码开发难度大等问题。 批处理时间 4.1 经验分享 陕西农信基于数据仓库、大数据平台使用期间显现的弊端,经历一年时间完成湖仓一体调研、交流、演进路线及 方案制定,再通过一年时间完成项目研发、测试及上线。 01 02 03 • 为了提高原有硬件资源的重复利用,降低演进过程中的应用改造和数据迁移难度,建议在原有技 术体系上进行架构升级。 • 对业界湖仓一体实施案例充分调研,基于行内原有数据平台的基础软硬件,确定湖仓一体的基础 架构和演进路线。 • 根据行内业务数据特点以及湖仓技术能力,调整数据流转和加工的流向,统一进行全行数据的 存储与处理,使数据链路高效运转。 谢谢! 陕西省农村信用社联合社
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
20 页请下载阅读 -
文档评分


全面构建企业架构:从战略规划到技术实施的一体化方案(179页 PPT)