超融合数据库 MatrixDB 实现数字汽车和智能工厂实践(41页 PPT)
2.74 MB
41 页
13 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
MatrixDB:数字汽车和工厂大脑实践 姚延栋 创始人 &CE O yandong@ymatrix.cn 北 京 四 维 纵 横 数 据 技 术 有 限 公 司 Confidential 1 关于我 姚延栋 • MatrixDB 创始人 • Greenplum 北京研发中心负责人( 2010-2020 ) • Greenplum 中文社区创始人 • PostgreSQL 中文社区常委 • 清华大学产教融合课程《分布式数据系统基础及应用》 产业方负责人 • 著有《 Greenplum :从大数据战略到实现》 │ ©202 四维纵横 Confidential 1 目录 l 时序和超融合 l 数字汽车 l 工厂大脑 │ ©202 四维纵横 时 序 和 超 融 合 Confidential 1 Confidential 1 全面数字化时代到来,拐点出现 • 麦肯锡《物联网:抓住加速机遇》指出到 2026 年 IoT 数据市场规模 1000 亿美金,而“ IoT 最大场景 在中国”。而物联网最典型的数据是时序数据。 DB-Engines 过去 24 个 月流行度趋势 2020 年物联网设备超过非物联网设备 │ ©202 四维纵 横 Confidential 1 什么是时序数据 • 时序数据是时间序列数据,即带有时间戳的数据序列。这个序列中的—个数据也成为数据点 ( data point ), —个数据点通常是—个( timestamp , value )对。 t i m e s e r i e s . . . . . . (ts1,v1) (ts2,v2) (ts3,v3) ( … , …) (tsN,vN) │ ©202 四维纵横 Confidential 1 什么是时序数据 • 可以有很多时间序列,每个时间序列有自己的节奏。 timeseries1 (ts1,v1) (ts2,v2) (ts3,v3) timeseries2 (ts1,v1) (ts2,v2) (ts3,v3) │ ©202 四维纵横 . . (tsN,vN) (tsK,vK) ● ● ( … , …) ● ● ( … , …) 静态属性 timeseries1 timeseries2 静态属性 . . (ts1,v1) (ts2,v2) (ts3,v3) (ts1,v1) (ts2,v2) (ts3,v3) 什么是时序数据 • 时间序列都是 (ts,val) 序列,那么如何区分不同的时间线?不同时间线会有不同的静态属性,通过静 态属性可以区分时间线。 . . (tsN,vN) (tsK,vK) Confidential 1 ● ● ( … , …) ● ● ( … , …) name: cpu_usage, IP: 192.168.1.2 name: cpu_usage, IP: 192.168.1.1 │ ©202 四维纵 横 什么是时序数据 • 时间序列都是 (ts,val) 序列,那么如何区分不同的时间线?不同时间线会有不同的静态属性,通过静 态属性可以区分时间线。 timeseries1 timeseries2 ● ● timeseriesN ● Confidential 1 时间 │ ©202 四维纵横 静态属性 静态属性 静态属性 什么是时序数据 • 对时序数据的查询丰富多样: —个时序的最新值, —个时序在某个时间段的明细或者聚合,多个时序 在—个时间段的明细或者聚合,多个时序的最新值等。 Confidential 1 timeseries2 timeseriesN 静态属性 timeseries1 时间 │ ©202 四维纵横 静态属性 静态属性 timeseries1 timeseries2 timeseriesN ● timeseriesN ● ● ● 时间 什么是时序数据 • Timeseries 之间有什么关系?这种关系是否重要? • 大多数场景下,某些 timeseries 有—定相关性,属于同—个实体,或者有相同的静态属性 Confidential 1 同一个实体, 譬如同一个应用 同一个机床 同一辆车 同一个实体, 譬如同一个应用 同一个机床 同一辆车 静态属性 静态属性 静态属性 静态属性 │ ©202 四维纵 横 Confidential 1 什么是时序数 据 │ ©202 四维纵 横 12 Confidential 1 时序数据建 模 三种数据建模方式: 1. 窄表模式 2. 宽表模式 3. 树形模式 Confidential 1 时序数据建模 • 窄表模式: —⾏—个数据点,可以用 KV 数据模型,也可以用关系数据模型。注 意窄表不是字面意思的字段个数多少,而是—行只表示—个数据点。 2021/10/01 08:00:00; 设备编号 =958D-7913, 城市 = 上海 ; 风向 ;23.4 2021/10/01 08:00:00; 设备编号 =958D-7913, 城市 = 上海 ; 风速 ;3.4 2021/10/01 08:00:00; 设备编号 =F3CC-20F3, 城市 = 北京 ; 风向 ;45.1 2021/10/01 08:00:00; 设备编号 =F3CC-20F3, 城市 = 北京 ; 风速 ;1.1 2021/10/01 08:01:00; 设备编号 =958D-7913, 城市 = 上海 ; 风向 ;23.2 2021/10/01 08:01:00; 设备编号 =958D-7913, 城市 = 上海 ; 风速 ;3.3 2021/10/01 08:01:00; 设备编号 =F3CC-20F3, 城市 = 北京 ; 风向 ;45.0 2021/10/01 08:01:00; 设备编号 =F3CC-20F3, 城市 = 北京 ; 风速 ;1.2 │ ©202 四维纵横 Confidential 1 时序数据建模 • 宽表模式: —行表示多个数据点,通常采用关系数据模型。可以用 —张表,也可以用多张表。注意宽窄定义不依据字段个数,而是—行 表示—个数据带还是多个数据点。 宽表也可以只有 5 、 6 个字段。 静态属性表 + 时序数据表 时序数据 四维纵横 │ ©202 时序数据建模 • 树形模式:与窄表区别是以层级方式组织静态属性(元数据) 角 速 度 加 速 度 油 量 速 度 GPS 速 经 维 度 度 Confidential 1 新能源车 油车 北京 上海 GPS 点云 时速 root VIN3 VIN2 VIN1 x y 经 度 维 度 x x │ ©202 四维纵 横 度 类别 条目 窄表 树形 宽表 写入 顺序写入 简单 简单 简单 乱序写入 复杂 复杂 复杂 异频写入 简单 简单 复杂 不同时间点采集 简单 简单 中等 存储 压缩比 低 中 高 查询 单设备单指标类查询 简单 简单 简单 单设备多指标类查询 复杂 简单 简单 多设备类查询 复杂 中等 简单 维度查询 复杂 复杂 简单 分析类查询 复杂 复杂 简单 Confidential 1 时序数据建 模 │ ©202 四维纵 横 视频帧数据 图像数据 时序数据 GIS 数据 时序数据是企业海量多样化数据的一部 分 Confidential 1 JSON 数据 Lidar 数据 文本数据 关系数据 │ ©202 四维纵 横 Confidential 1 传统方案造成复杂、低效、孤岛化的现 状 • 多种数据产品、孤岛化严重;穿墙打洞、复杂低效;数据质量参差不齐 • 70% 企业结果是投了钱,疗效低( Gartner 报告) Matrix DB :高性能超融合数据库 历史原因造成纷繁复杂、低效 让数据回归应该有的样子! Confidential 1 将复杂留给用户 把极简、极速留给用户 │ ©202 四维纵横 各种业务 各种业务 JDBC/ODBC/OLEDB 日志 事务 并发控制 锁管理 快照 超 融 合 数 据 库 Matrix DB 架 构 • 欢迎实测: https://ymatrix.cn/download 关系应用 时空应用 文本检索 流计算应用 机器学习应用 应用 Confidential 1 公共基础设施 SQL 统—优化器 内存引擎 OLTP 引擎 OLAP 引擎 时序引擎 备份 ⻆⾊ 监控 加密 认证 高可用 审计 恢复 存储器 存储器 执行器 执行器 存储器 执行器 执行器 存储器 │ ©202 四维纵 横 JDBC/ODBC/OLEDB Standby Master Segment Segment Segment Segment MatrixDB 从单节点到数百节点 支持 100PB 级原始数 据量 关系应用 时空应用 文本检索 流计算应用 机器学习应用 Confidential 1 │ ©202 四维纵 横 应用 Maste r Matrix DB 为数字化时代而设计的一站式大数据 平台 • 新时代需要新技术栈,以满足新业务、新场景、新数据和新用户 • 数字化 + 物联网是最大的机遇,企业需要卓越的数据基座而不是 单品数据库 1980-2000 2000-2020 Now 信息化 时代 互联网 时代 数字化 时代 Confidential 1 专用数据库 四维纵横 │ ©202 数 字汽车 Confidential 1 汽车数字化是汽车业演进的主要趋势之 一 Confidential 1 │ ©202 四维纵 横 26 总体架构 智能座舱 画像分析 行为预警 实时查询 Confidential 1 MatrixGate 高吞吐加载 负载均衡 Kafka 数据解 析 MatrixDB 高可用集 群 MatrixGate JT/T808 MQTT GB32960 SQL │ ©202 四维纵 横 27 数据建模 • 车机信号表: vin 号、时间戳、 800+ 常用指标、 —个 JSON 字段存储上千非常用指标 • 若干张关系表存储各种关系数据,包括车主信息、保养记录 Confidential 1 车主信息表 保养记录表 借贷信息表 … timestamp ts json 其他属性 varchar vin float8 速度 float8 经度 float8 维度 float8 float8 车机信号表 四维纵横 ©202 28 │ 存储模型 • 车机信号表: • 采用 mars 存储引擎 • 按天分区,冷热分级。冷数据采用外部表降低存储开销 • 分区自动管理实现分区自动创建,自动转化 • 使用持续聚集实现最新值查询,取代 Redis 集群 • 其他关系表采用关系存储引擎 Confidential 1 车机信号表 9 月 ( 年前 二年前 热数据本地存储 冷数据外部表 11 月 10 月 四维纵横 ©202 29 │ … 数据查询 • 单车某个指标最新值、多个指标最新值 • 单车某个时段某个指标明细数据、某个时段多个指标明细数据 • 单车某个时段某个指标聚合值、某个时段多个指标聚合值 • 多车某个指标最新值、多个指标最新值 • 多车某个时段某个指标明细数据、某个时段多个指标明细数据 • 多车某个时段某个指标聚合值、某个时段多个指标聚合值 • 常用指标 + 非常用指标 Confidential 1 四维纵横 ©202 30 │ SELECT vin, time_bucket(‘10 second', ts) timebucket, array[ last_not_null_value(c1, ts), last_not_null_value(c2, ts) ] as signals FROM car_signal WHERE vin = ‘1, AND ts >= ‘2021-10-10 00:00:00, AND ts < ‘2021-10-10 01:00:00, GROUP BY vin, timebucket ORDER BY timebucket; 高级查询 • 指标对齐:指标采集时间点通常不会精确—样,有的时候需要对某个时间窗口的数据进行 分析,这都可以直接通过 SQL 来实现 • 对齐是机器学习中非常常见的操作,通过 SQL 可以大幅提升开发效率 ©202 1 Confidential 四维纵横 31 │ Confidential │ ©202 1 四维纵 横 SELECT vin, ts, mode, diff1,diff2 FROM ( SELECT vin, ts, mode, mode - lead(mode) OVER (PARTITION BY vin ORDER BY ts) AS diff1, -- 前向差值 1 mode – lag (mode) OVER (PARTITION BY vin ORDER BY ts) AS diff2 -- 后向差值 2 FROM car_signal WHERE vin = ‘LW433B115M10xxxxx ’ -- 某辆车 AND ts >= ‘2021-11-17 19:30:00’ -- 某个时间段数据 AND ts < '2021-11-17 19:30:00'::timestamp + '4 hour'::interval AND mode is not null -- 某种模式 ) ht WHERE abs(diff1) > 0 OR abs(diff2) > 0 -- 是否跳变 ORDER BY vin, ts; 高级查询 • 跳变差值:故障分析时,需要查询某个时段的可疑信号的跳变差值,譬如摘取几个关键指 标判断是否碰撞,发生碰撞后,快速查询碰撞前—段时间的相关信号的跳变差值。常用语安 全告警业务。 • — 条 SQL 替代数百行 flink 代码 + 测试,大幅提升开发效率 select vin, ts as ts_start, drive_status, lag(ts) over(partition by vin order by ts) ts_end ,
| ||
下载文档到本地,方便使用
共 41 页, 还有
3 页可预览,
继续阅读
文档评分


MOM-智能工厂的大脑“三化融合”打造精益智能工厂 解决方案(96页)