美图-陈满意-美图数据中台建设实践(28页 PPT)
1.14 MB
28 页
12 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
美图数据中台建设实践 陈满意 - 高级技术经理 目录 01 02 03 04 数据服务 数据中台 中台 数据平台 初期痛点 基础建设 数据治理 服务建设 总有一款美的产品你感兴趣 土耳其 巴基斯坦 孟加拉国 面向用户 加拿大 美图秀秀 美颜相机 美拍 美妆相机 BeautyPlus 日本 中 irBrush VCUS Pomelo 美图问医 美图定制 菲律宾 越南 印度尼西亚 22.2 亿 60 亿 独立设备数 照片和视频 每月产生数 泰国 马来西亚 2.61 亿 国内月活 巴西100+ 个 美国 墨西哥 近 1 亿 国家和地区 海外月活 韩国 帮助用户从虚拟世界到现实世界变美 美图宜肤 美图旗下的科学测肤品牌, 产品包括 全景式 AI 测肤仪 、测肤魔镜 、图像测 肤三款产品, 通过 AI 测肤算法, 为皮 肤科研及皮肤管理行业提供技术支持 与多场景测肤解决方案。 解决用户面部皮肤问题的医学专业平 台, 目前与上海市皮肤病医院共建的 皮肤专科互联网医院已经获批, 能提 供网上医疗问诊 、线下药品配送等医 疗服务。 目录 01 02 03 04 数据服务 数据中台 中台 数据平台 初期痛点 基础建设 数据治理 服务建设 从无到有 - 快速上线 R sync 日志同步至某个数据中心节点 上传 hdfs Cron tab 定时调起脚本 小时级 、天级计算 可视化 日志 计算 调度 S he l l 发起 hive 任务,结果入库 Mysql View 读取 Mysql 进行报表展示 大数据生态演进 应用 报表统计 数据分析 业务需求 计算 Hive/MR Storm 存储 HDFS Mongo Mysql 采集 sqoop kafka 客户端上报 SDK 服务端日志采集 业务爆炸下的数据痛点 人力 业务繁多,重复造轮子 ,人力资源消耗大 系统 需要不断定制开发,服务紊乱,维护成本大 资源 存储 、计算资源出现瓶颈,影响业务开展 数据痛点 目录 01 02 03 04 数据服务 数据中台 中台 数据平台 初期痛点 基础建设 数据治理 服务建设 采集 质量 数据采集痛点 信息 管理 痛点 较低 数据 使用 • 埋点信息维护不易 • 埋点信息不易共享 • 数据使用质量难于保证 • 数据上报不符合业务需求 • 数据上报缺失或者异常 • 数据问题发现滞后 • 测试无法快校验数据 • 数据口径不好追溯 • 埋点数据无法和其他系统联动 APP 采集 SDK 封装 数据内容 • 基于事件模型 • 行为附属信息 • 设备信息收集 • 固化业务模型 一 ● 上报机制 • 缓存机制 • 上报频率 • 云控开关 • 用户隐私合规 • • SDK 注册授权 • 上报数据加密 上报规范 • 命名规范 • 数据类型 • 上报时机 上报安全 APP 埋点管理平台 数据质量 数据平台 仓库建设 业务系统 埋点管理 埋点调式 终端埋点实时调试 Web 数据实时调试 需求管理 云控打点 采集维度控制 上报机制参数调整 数据采集 APP 采集 SDK Web 采集 SDK PC 采集接口 数据监控 核心数据实时监控 自定义数据监控 埋点信息管理 事件管理 版本信息管理 数据统计 PV\UV 统计 使用时长 趋势分析 协议管理 上报协议管理 埋点配置管理 数据产品 数据分析 埋点测试 开发对接 维护 使用 数据中台基石 - 计算与存储痛点 集群资源无 法充分利用 集群存在低峰资源 利用时间 ,资源空 转, 同时集群对硬 件 CPU 、内存需求 不一致,可能导致 资源浪费 不同计算引 擎运行性能 存在差异 计算引擎差异导致 任务运行时间和资 源损耗存在差异 , 需要择优运行 任务调参优 化成本高 业务专注在逻辑实 现,对任务的报错 、 调优存在门槛 ,需 要能快速定位错误 和生成优化参数 存储成本高 且影响计算 性能 业务打点日志较多, 数据量逐渐增多, 不仅影响了计算性 能,也增加存储成 本 美图大数据计算存储框架 数据应用层 数据平台 数据业务系统 API 原生接口 SQL 兼容 基建管理 Hadoop 云计算基建 HBase 智能计算引擎 资源调度 权限控制 成本计算 clickhouse 集群运维 spark kafka Mongo 服务层 云存储 presto flink SDK ES 美图大数据计算智能引擎 SQL SDK/API SQL 画像识别 - 》计算引擎路由 Flink 引擎 Presto 引擎 个性化设置 参数优化 权限控制 集群资源调度 Hadoop/Spark Yarn Presto Yarn Flink Yarn 云存储 Click House 引 擎 任 务 信 息 采 集 模 块 Spark 引 擎 任 务 管 理 系 统 MR 引擎 美图大数据存储管理 数据管理 存算分离 l 解决存算合一资源浪费问题 l 打破多集群间的数据孤岛 l 存储资源按需灵活缩扩容 l 实现重要数据异地备灾 l 实现多级存储,节省成本 计算优化 l 列式存储 orc 、 parquet l 小文件合并 l 构建数据地图构建 l 权限管理和数据安全 l 数据生命周期管理 l 数据使用统计与治理 l 冷热数据压缩与归档 存储 架构 管理 目录 01 02 03 04 数据服务 数据中台 中台 数据平台 初期痛点 基础建设 数据治理 服务建设 数据治理痛点 • 缺失数据元数据 • 数据查找成本大 • 数据缺乏监控机制 • 数据只增不减 • 数据重复存储 • 无用数据缺乏管理 • 缺乏数据指标体系 • 数据的接入与输出没有规范 • 缺少数据工具化管理平台 数据可用性差 数据维护体系不健全 资源浪费 中台数据资产管理 数据治理 采集数据治理 上报管理 埋点管理 数据调试 流量监控 数据质量 数据规范 维度注入 数据清洗 异常管理 数据监控 埋点信息管理平台 生产数据 资源信息 设备信息 云存储 集群资源 成本信息 数据安全 维度信息 数据大小 生命周期 报表引用 任务依赖 运行信息 表抽象 数据口径 血缘关系 数据热度 任务逻辑 调度周期 数据资产管理平台 衍生元数据 数据加密 审计日志 用户隐私 安全等级 数据权限 使用管控 系统信息 资源数 据 生产数据治理 目录 01 02 03 04 数据服务 数据中台 中台 数据平台 初期痛点 基础建设 数据治理 服务建设 如何发挥数据价值和计算能力 数据 如何把数据开放给公司 各个业务使用,尽可能 达到易用 、透明 、规范 算力 对外开放实时 、离线的计算 能力,助力业务发展 需要一个数据平台 任务系统 配置即开发,简单易用 支持临时任务 、周期任务 灵活的任务调度系统 数据集成 数据支持多源数据的导入导出 支持实时数据的消费与写入 计算场景 支持批量 、实时计算 、即席查询 引擎支持 : mr 、 spark 、 flink 、 clickhouse 数据资产 数据透明,方便使用 承载数据治理功能 运算结果 提供各种格式的结果数据导出 提供统一 API 访问层 可视化报表 支持快速生成报表,可自定义 报表系统 数据平台 核心述求 美图大数据平台 可视化报表平台 业务系统 统一的数据访问 API 可视化配置 实时计算 数据管理 数据订阅 平台 SDK 数据分发 任务调度系统 美图智能计算引擎 云基建 SQL 配置 离线统计 数据集成 固化业务 即席查询 成本管理 元 数 据 管 理 中台体系应用与服务 数据报表平台 统一输出各产品的新增 、活跃 、留存 、 地域 、设备等常规统计和大屏数据 渠道投放平台 含括渠道投放管理 、激活甄别 、 投放效果统计的业务平台 AB 测试平台 集成了流量控制 、版本管理 、实 验效果跟踪为一体的 AB 测试自 动化平台 数据分析平台 七大数据分析模型 ,多维度多场景 数据挖掘,洞察用户行为,助力业 务增长 APP 质量平台 统一采集 APP 质量相关数据指标,支 持多维交叉的分析洞察,质量监控 、 异常排查 、运营联动等功能 地理位置服务 根据 IP 、经纬度 、用户行为信息,提 供用户 POI 级地理位置信息 数据访问 API 数据落地 • 支持平台配置数据任 务对接 • 支持自定业务数据落 地 • API 支持 mongo 、 hbase 、 mysql 、 k v 数据配置 • 根据配置自动生成访 问的表名 、字段名 , 并生成 API 访问 schema • 数据查询优化配置: 索引 、缓存等 API 管理 • 访问者权限管理 • 访问黑白名单管理 • 过期时间管理 • 接口访问信息 接口使用 • API 平台申请访问权 限 • 根据配置信息使用 API 实践经验 丰富的数 据平台 智能 计算引擎 数据服务 与应用 采集传 输管理 存算分离 数据管理 未来规划 深入数据资产管理 挖掘数据价值,助力业务发展 建立智能监控平台 保证数据输出质量 THANKS
| ||
下载文档到本地,方便使用
共 28 页, 还有
1 页可预览,
继续阅读
文档评分


保险数据中台解决方案
企业数字化转型建设方案(数据中台、业务中台、AI中台)(187页 WORD)