ppt文档 数据中台方案汇报素材(38页PPT) VIP文档

5.33 MB 38 页 13 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
数据中台 方案汇报 第一部分 什么是数据中台 数据中台的由来 阿里启动中台战略的起因是一次商务拜访。 2015 年中,马云拜访了芬兰赫尔辛基的手游公司 Supercell ,税前利润 15 亿美元的公司。 其最令人熟知的作品包括了《卡通农场》、《部落冲突》、《海岛奇兵》、《部落冲突:皇室战争》《荒野乱 斗》 , 2016 年 6 月,腾讯以 86 亿美元收购了 Supercell 的 84.3% 股权,此时 Supercell 不超过 200 人。 通过游戏中台将游戏开发过程中公共、通用的游戏素材和算 法整理起来,可以同时支持几个小团队在几周时间内研发出 一款新游戏,并能鼓励员工充分试错。 数据时代 Data 1.0 “ 描述过去,看结 果;看了,然后呢” Data 2.0 “ 数据驱动业务, 野蛮生长、重复建 设、孤岛烟囱” Data 3.0 “ 更多数据驱动业 务、更多活数据云 和端互通流动应用、 数据质量” 组织架构 淘宝商城(天猫) 共享业务事业部 (业务中台) 聚划算 数据平台事业部 (数据中台) 大中台、小前台 战略 基础设施发展 Oracle Hadoop Odps Storm 08 年 09 年 10 年 11 年 12 年 13 年 淘数据 广告 个性化 推荐 御膳房 Base SkyBridge 数加 聚石塔 IdMapping 风控 生意 参谋 数据中台的由来 中台战略 TCIF BI 量子 统计 MaxCo mpute 数据应用 搜索 Flink l 底层建设严重匮乏 l 高价值数据难以产生 l 当前的数据业务价值低下 基础不牢、价值不高的 04 01 零散的、孤立的、分散的 l 业务越向前越不准确 l 数据被业务模块割裂 l 数据口径不统一 l 数据视角不一致 l 数据定义不清晰 l 数据对不上 混乱的、困惑的 02 渴望的、不满足的 l 每个岗位都希望得到 数据的支撑 l 很多种智能的应用都 需要数据的支撑 企业大数据面临什么样的问题 03 企业数据应用演进路径 数据驱动 4.0 统计分析 业务需求为导向 少量的统计分析 1.0 3.0 2.0 决策支持 建立数据理念 业务场景驱动 数据应用闭环 业务需求驱动 数据业务融合 数据仓库建设 数据服务 阶段 应用场景 数据需求 参与方 价值体现 存储计算 数据组织 Data 1.0 、 Data2.0 “ 描述过去,看结果; 看了,然后呢” 报表 明确 业务(决策) IT (实施) 面向业务人员 的辅助决策 数据库选型: Oracle 、 Mysq 等 面向业务主 题的指标体 系 报表 明确 业务(决策) IT (实施) 面向业务人员 的辅助决策 数据仓库选型: Teradata 、 GreenPlum 等 面向业务主 题的指标体 系 Data 2.0 “ 数据驱动业务,野 蛮生长、重复建设、 孤 岛 烟 囱 ” 单一智能决策业务 应用场景 明确 系统(决策) 业务和 IT (实施) 面向业务系统 的优化升级 Hadoop 生态 选型:开源 Hadoop 、 CDH 、 HDP 等 面向业务主 题的指标体 系(准实时、 预测类指标) Data 3.0 “ 更多数据驱动业务、 更多活数据互通流动 应用、统一数据服务” 多元化场景:报表、 产品推荐、个性化 信息推送、客户健 康管理、核保核赔、 风控 迭代 系统(决策) 业务和 IT (实施) 面向业务创新 与快速需求响 应 Hadoop 生态 选型:开源 Hadoop 、 CDH 、 HDP 等 面向场景驱 动的数据资 产体系 企业数据应用演进路径 数据中台定义 数据中台是一种战略选择和组织形式,通过有型的产品支撑和实施方法论,解决大企业面临的数据孤岛、数据维护混乱、数据 价值利用低的问题,依据企业特有的业务和架构,构建一套从数据汇聚、开发、管理、到资产服务的体系,源源不断地把数据 变成资产并服务于业务的,形成可持续让企业数据用起来的机制 ,让数据可见、可懂、可用、可运营。 数据中台定位 赋能业务中台和前台,实现业务增值(用户留存 / 产品销量 / 商品库存) 。 l 全域的数据融合形成全域视角: 全集团各业务单元数据的融合,以往是单一视角的看业务问题,现 在可以全域视角去看业务的提升。 l 全域的数据资产管理: 现有问题:有哪些数据没人能说的清楚,更别说用起来。 未来实现: 数据资产的发现、数据资产的管控、数据资产的评估、 数据资产的运营。 l 全面的数据价值交换: 数据提供统一的服务能力为各业务赋能,同时可以根据各数据源的 贡献情况进行数据计量 ,按此可以进行业务线之间的财务结算,可 以更直观的感受到数据资产的价值。 数据中台的三大能力 数据中台通过整合数据、产品与技术,形成共享服务体系,为敏捷型前台业务部门提供支撑,最终达到:数据从 零散到统一、从成本中心到资产中心、从数据孤岛到数据融通、从给数式服务到业务主题式服务。 推动业务创新 • 解决了企业中各个数据 相关开发团队各自为政 的问题,促使组织管理 • 数据中台具备强大的数据 规整能力,能够极大的提 高从数据采集、数据资产 更加扁平化 化到数据应用的工作效率, • 解决了因组织迅速膨胀、 推动现有业务的优化和新 员工众多造成的管理不 善和效率低下问题 业务的开展。 • 降低数据计算成本与数 据存储成本。 • 降低因大量重复建设及 数据体系不一致等导致 的人力成本的浪费。 • 将数据当成一种必须产 生价值的资产加以构建 和管理 • • • • 实现了统一标准和快速 响应 一份数据满足多种服务 需求 满足多场景下对响应速 度的需求 企业数据统一共享服务, 数据成为了资产而非成 本 • 业务数据化 • 数据资产化 • 资产业务化 降低成本 促进组织优化 促进数据价值化 提高效率 数据中台的价值 第二部分 数据中台怎么建 l “ 用” :通过某一业务切入点,寻找数据中台建设的核心应用抓手; l “ 通”:基于业务切入点进行相关数据的打通,将原来看似没有关系 的数 据进行连接,构建基础资产体系,形成全新的数据视角; l “ 存”:数据一旦形成一个价值点,通过数据应用实现数据的流动交 互, 从而使更多的数据被存储上来,并形成“活”的数据,源源不断 供应到 平台中; l “ 算”:通过吸引更多的数据实现数据资产体系的逐步完善,寻找更 多的 业务应用场景, 进行数据的深度挖掘计算,建立数据应用闭环, 数 据越用越有价值; 注:数据中台的规划一定要着眼于未来,从大处着手;落地时要从小场景进行切入,找到最能体现数据价值的地方,逐渐完善能力;随着存储、 计算需求的增加,逐步加大投入;应用回到场景,价值在场景得到验证,最终形成闭环。 数据中台 建设方略 以算 利用 以用 促通 以存 训算 以通 带存 企业数据中台实施方略 顶层规划 组织架构 体系架构 运营机制 调研盘点 平台搭建 数据建设 价值场景 持续运营 底层选型 大数据开发平台 资产管理平台 数据服务平台 企业数据中台实施步骤 数据汇聚 公共数据建设 数据标签建设 客群画像 精准营销 风险控制 场景推广 长效运营 数据闭环 业务盘点 数据盘点 场景盘点 中台战略 数据积累情况调研 1. 对各业务领域涉及的系统名称、数据库类型、 已积累的数据内容等进行分析; 2. 对积累的数据类型、数据更新频次、数据标 准情况、数据质量情况等进行分析; 3. 对数据的管理现状、数据的使用情况等进行 分析; 数据中台建设规划 1. 根据业务需求进行缺失数据内容补充规划; 2. 根据调研情况制定数据汇聚、加工策略,进 支撑进行规划; 01 02 03 数据及业务应用问题分析 1. 对业务数据使用过程中的痛点问 题 进行分析; 2. 对未来业务应用的数据支撑需求 进 行分析; 3. 对基于数据资产化建设过程中识 别 的新的数据应用场景进行分析; 企业数据中台实施步骤:调研盘点 统一数据存储计算平台 解决大数据量存储计算问题, 主要包括结构化、非结构化数据的分 布式存储和离线计算、实时计算、即席计算、在线计算、算法建模 等, 主要是以 Hadoop 生态体系为代表的分布式存储计算框架为主。 数据中台基础设施 统一数据资产建设工具 解决数据资产建设过程中数据交换、数据开发、数据资产管理、数 据服务的问题 ,提高了数据开发、数据管理、数据应用效率,构建 数据应用基础设施。 企业数据中台实施步骤:平台搭建 企业数据中台实施步骤:数据建设 数据汇聚 :通过统一数据交换中心进行增量离线、实时数据汇聚,将相关数据逐步汇聚至统一数据存储、计算平台,形成 ODS 原始数据层。 高性能计算存储 HANA 文件存储 HDFS 、 OSS 等 Oracle 、 Sql Server MySQL 、 Postgresql 统一数据存储计算平台 文件 数据仓库 消息中间件 其他 NoSQL 爬虫、埋点、日志、 检索引擎 HBase 、 MongDB 、 OTS … … …. Hive 、 ODPS 、 Greenplum 关系型数据库 Kafka 、 ZeroM Q EXCEL 、 CSV 、 T XT 企业数据中台实施步骤:数据建设 统一数据层建设 :以维度建模为理论基础进行传统数仓建模,构建总线矩阵,划分业务板块、定义数据域、业务过程、维度、 度量、修饰类型、 修饰词、时间周期、派生指标,进行维表、明细事实表、汇总事实表模型设计与开发。 能够为业务所使用并产生价值的加工后的数据。 【数据】 :业务系统提供的数据字段 【标签】 :给业务使用的指标特征,业务 能看得懂,用的起来的数据 【类目】 :方便寻找标签的类目结构 标签有三种类型: 1. 原始数据标签(客户原始提供的数据表中字段,经过清洗标准化) 性别、年龄、生日、收货地址、终端机型 2. 统计数据标签(客户原始数据通过 ETL 加工,例如求和、平均等函数运算) 结算行为上的属性:消费频次、消费总金额、客单价、消费时间段偏好、平均等待时长等 商品上的属性:品类偏好等 3. 算法数据标签(客户原始数据经过算法模型计算后的高级标签) 工作地(根据收货地址推算),是否是租客、消费能力(低、中、高),消费特征(促销铭感,消费果断、财大气 粗等) 企业数据中台实施步骤:数据建设 标签体系构建 :标签从数据加工而来,是对某一对象属性、特征的刻画,是具有业务含义或对业务有指导意义的数据定义,是 创建标签组 企业数据中台实施步骤:价值场景构建 标签设计完成之后形成后台标签类目,在业务应用是通过标签的申请、组装,形成场景化前台标签类目,结合数据引擎能力, 通过“标签 + 引擎”快速生成服务于业务的应用形态,主要有 API 服务接口和可视化两种常见形态。 选择标签 【资产安全】标签审批 申请标签 数据交换任务对应数据目录,标签目录通过绑 定表实现,分前后台目录,前台目录和业务场 景绑定,后台类目相对固定 后台类目 标签目录(绑定表) 前台类目 我的标签 标签 组 场景化自由组合、动态生成 标签 + 引擎 = 生成服务 数据应用 A 应用服务 API 数据应用能力 市场营销 数据资产 统一存储 市场运营 业务数据沉 淀 企业数据中台实施步骤:持续运营 统一数据平台 服务 业务数据回流 业务数据回流 业务赋能 价值点曝光 业务数据沉 淀 业务数据沉 淀 更多业务赋能 风险控制 第三部分 数据中台建设工具支撑 数据开发 平台 用户中心 云基础设施 决策 支持 创新 应用 大数据开发门户 资产共享平台 数据资产管理 平台 数据中台整体技术架构 业务应用层 Hadoop 计算层 BI 分析 流程监控 运营大屏 IaaS 层 数 据 中 台 信用风险 控制 大数据 营销 投资收益 跟踪 数据资产体系 HANA 数据服务 基线告警 异构数据源 客户标签体系 企业标签体系 一键运维 智能调度 可视化配置 产品标签体系 异构网络 敏感数据脱敏 数据服务申请 数据权限 权限审批 用户管理 运维监控 发布部署 运维监控 发布部署 发布运维规范 数据研发规范 数据血缘 数据质量 需求下发 服务引擎授权 环境隔离 资源包 环境隔离 权限控制 角色管理 实时数据开发 数据建模规范 数据访问审计 数据分级管理 调用访问审计 元数据管理 算法库 开发角色管理 服务引擎发布 数据服务上架 离线数据开发 数据工具 / 服务管 理 数据服务引擎管理 用户角色管理 数据标准管理 数据资产管理 数据安全管理 开发角色管理 数据开发 数据同步 运维监控 数据开发平台:数据汇聚 支持 20 多种多源、异构数据的汇集、可以支持离线、实时的数据接入,支持以插件化、热插拔的方式对数据源 进 行扩充 数据源 Oracle Reader Oracle 备 库 MsSQL Reader MsSQL 主 库 MySQL 主 库 数据平台 Hbase Hive Other 数据从业务库流向数仓的在线、离线存储,支持 BI 分析以及数据算法挖掘 业务人员操作控制 UI 端 多数据源同步 可视化界面 插件化扩展 异构网络同步 数 据 智 能 适 配 Hbase Writer Other Writer MySQL Reader Other Reader GP Writer Hive Writer MySQL 备 库 MsSQL 备 库 数据同步 Oracle 主 库 数据开发平台:数据开发 成熟的数据开发平台,支持市面几乎所有底层平台,具备多种工具能力,通过可视化图形界面操作,顺利完成各种数据开发 工作,方便的任务、配置、调度等工作。 任务流模式 将复杂的作业拆分成一个个小任务, 简化代码的逻辑,降低维护成本。 资源控制 准入管理、认可用户才可使用。资源管理, 资源池划分。 扩展性 组件化设计,可以支持新的存储计算组 件加入 内置包 内置丰富算法框架、算法包、函 数包,提升开发效率 离线开发、实时开发、算法开发 可视化工作流开发 拖拽式算法开发 异构系统统一管理 多人并行协同 丰富的大数据组件 星环 Transwarp Apache 社区版 CDH Greenplum Shell Kafka Python MaxComput e Flume Hadoop Spark Oracle Hbase Hive 1 、提交发布申请 2 、发布审核 3 、审核通过后,自动复制到生产环境 支持异构平台统一管理 , SQL 、 SHELL 、 PYTHON 、 MR 、 DFS 、 HIVE 、 SPARK 、 SPARKSQL 等多种节 点类型 支持多人协同开发 ,集成开发环境,通过 统 一的开发环境及管理,提高开发效率 支持脚本、函数、资源,可以开发引擎、调 用内置算法包等 离线开发 实时开发 算法开发 数据开发平台:数据开发 • 支持 Flink 、 SparkStreaming 、 Storm • 全 SQL 驱动,将数据源( kafka 、 hbase 、 • 提供图形化开发界面 . 字典)注册表、转化、 sink 都以表的形 • 支持多租户 . 式操作 . • 支持开发、测试、准生产环境在线切换 • 多表关联 , 实时流与事实表、维度表、字 • 输出支持 RDS 、 ES 、 Kafka 、 Hbase 、 典表的连接 Kudu 、 Mysql • 对 Flink 除自身的提供的 UDF 外,将和 • 支持 SQL 语法检测 Hive UDF 打通 • 支持应用准入管理,只有认证用户方可提交作业至集群资源管理工具中指定的资源池中运行 . • 支持资源管理,允许用户提交登记的资源申请以内的应用,超过登记的资源需求应予以拒绝。 • 提供 Rest 等服务接口,允许经认证的第三方通过 REST 接口方式提交作业至集群中运行 • 实时展示任务运行的拓扑图,查看作业吞吐指标、节点性能指标 • 和 Kafka 管理、数据接入模块打通,实现应用级数据端到端的完整流向监控 • 集成 YARN 的作业运行状态监控 • 支持流处理应用延迟、吞吐等性能阀值设置及异常告警 • 支持 kafka 等消息中间件 Topic 在线管理,包括在线启停,支持滚动重启、新增 Topic 、修 改数据保留时长、查看 Topic 详情等 离线开发 实时开发 算法开发 多计算引擎 开发中心 资源控制 运维中心 数据开发平台:数据开发 分类聚类算法 决策树、 K-means 、支持向量机、随机森林、贝叶 斯分类器、模拟退火法、神经网络等
下载文档到本地,方便使用
共 38 页, 还有 2 页可预览, 继续阅读
文档评分
请文明评论,理性发言.