产权大数据平台建设方案(44页 WORD)
720.80 KB
52 页
11 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .docx | 3 |
| 概览 | ||
产权大数据平台 建 设 方 案 目录 第 1 章 项 目 概 述 5 .1 建设背景 5 .2 建设目标 6 .3 建设原则 6 .4 需求分析 7 第 2 章 总 体 设 计 9 . 9 .1 总体架构 9 .2 建设内容 9 第 3 章 数 据 接 入 11 . 11 . 11 . 11 .1 接入内容 11 .1.1 项目数据 11 .1.2 市场参与主体数据 11 .1.3 资产(权益)数据 11 .1.4 行为数据 11 .1.5 披露与监管数据 12 .2 数据集成系统(ETL)介绍 12 .2.1 系统组成 12 .2.2 主要功能特点 13 .3 实时数据同步系统介绍 13 .3.1 增量数据同步 14 .3.2 历史数据同步 16 .4 网络爬虫 17 .4.1 数据流 18 .4.2 事件驱动网络 19 第 4 章 数 据 存 储 20 . 20 .1 基础库 20 .2 主题库 21 .2.1 建立完善行业大数据技术标准 21 .2.2 项目库的建立 21 .2.3 投资人数据库的建立 22 .2.4 产权交易机构资源库的建立 23 .3 分析库 24 .4 索引库 24 第 5 章 数 据 处 理 25 . 25 .1 分布式计算框架 25 .2 内存计算框架 25 .3 流式计算框架 26 .4 分析引擎 26 .4.1 垂直搜索 26 .4.2 信息挖掘 27 .4.3 数据比对 27 .5 人工智能 27 第 6 章 数 据 管 理 29 . 29 .1 数据集成监管 29 .1.1 数据集成作业监管 29 .1.2 基础资源库资源监管 29 .1.3 基础资源库数据报表统计 30 .2 数据质量管理 30 .2.1 数据质量监测 30 .2.2 数据质量评估 31 .2.3 问题数据追溯反馈 32 .3 元数据管理 32 第 7 章 数 据 服 务 总 线 34 . 34 .1 基础数据服务和接口 34 .1.1 资源数据服务 34 .1.2 业务数据服务 35 .1.3 逻辑数据服务 35 .1.4 分析数据服务 35 .1.5 海量非结构化数据服务 35 .2 服务调用方式 35 .2.1 请求服务方式 35 .2.2 订阅/发布型服务方式 35 .3 服务规范及数据标准 36 .4 服务管理 37 .4.1 服务大厅 37 .4.2 分布管理 37 .4.3 数据资源目录 37 .4.4 数据源管理 37 .4.5 服务接口编目管理 38 .4.6 服务权限管理 38 .4.7 角色管理 39 .4.8 统计与审计 39 .5 提供数据资源共享服务 40 第 8 章 数 据 应 用 与 可 视 化 41 . 41 .1 综合查询系统 41 .2 大数据分析挖掘工具 42 .2.1 超级档案 42 .2.2 大数据碰撞比对工具 42 .2.3 风险预测分析 43 第1章项目概述 .1 建设背景 数据是国家基础性战略资源,是 21 世纪的“钻石矿”。党中央、国务 院高度重视大数据在经济社会发展中的作用。中共中央总书记习近平强 调,大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、 力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影 响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数 据战略,加快完善数字基础设施,推进数据源整合和开放共享,保障数 据安全,加快建设数字中国,更好服务我国经济社会发展和人民生活改 善。 通过加强对产权交易数据分析与应用的研究,可为交易机构、会员、 投资人提供优质的服务,有利于加强交易机构之间、交易机构与其他机 构之间的业务协同,实现合作共赢。但目前,行业数据如何进行整合还 不清晰,各类数据依据类别、行业、部门、地域被孤立和隔离,同一时 空对象所属的各类数据之间天然的关联性和耦合性被割裂。希望通过大 数据方案的实施,努力将产权交易行业凝聚在一起,提升产权交易行业 的影响力,达到以下目标: 1. 对加强政府监管,帮助政府做出决策具有重要作用。 2. 对推动产权行业凝心聚力,促使交易机构之间形成业务互补、资源 共享的共赢局面,共同建设好产权交易资本市场具有重要作用。 3. 对投资人高效、精确找出所需项目、进行价值判断和投资决策具有 重要作用。 随着近年来企业信息化建设的不断深化、社会化网络的兴起,以及移 动互联网等新一代信息技术的广泛应用,全球数据规模及其存储容量正 在迅速增长,数据的类型也变得复杂多样。海量多样化的数据对信息的 有效存储、快速读取、检索提出了挑战;且其中所蕴藏的巨大商业价值 也引发了对数据处理、分析的巨大需求。当前,大数据已逐渐渗透到各 个行业和业务职能领域,数据成为企业战略资产,企业战略逐渐从"业务 驱动"转向"数据驱动"。如何通过收集和分析大量内 部和外部的数据,获取有价值的信息将成为指导企业经营决策、业务运作中的 核 心环节。 .2 建设目标 在广泛调研基础上,本项目确定了“利用大数据与云计算技术,建立 一个平台、一套服务、一批应用”的总体建设思路,以实现全局信息资源 的深度整合和综合应用,为领导决策提供支持,为业务拓展提供支持。 (1) 整体架构。采用云计算技术,优化技术架构的顶层设计,以分布式文件 系统和分布式计算为核心,建立全局统一的一套存储、网络、应用、管理 平台,通过统一数据格式、接口标准,推动并实现基础设施资源、软件资源、 服务资源、信息资源的共享共建,提供海量的数据存储和强大的数据处理 能力。 (2) 基础环境建设。硬件配置通用服务器、集中存储及配套设备,用于数据 存储和处理,非结构化存储能力扩展到 500TB;通过平台管理工具软件 实现服务器资源集群部署,同时使服务器群具有良好的横向扩展能力。 (3) 数据标准化处理。对照国家和行业发布的数据标准对企业内外部数据资 源进行全面清洗、转换、整合、关联,改变原始数据关联性差、共享程 度低、标准不统一的存储状况,并按照大数据技术存储架构实现各类数据 资源的分类存储,满足数据资源深度挖掘应用分析需要。 (4) 应用接口服务。深化数据资源服务总线建设,依托服务总线开发数据查 询、比对、分析等多种类型应用服务接口,面向业务提供可定制、个性化 的数据资源服务,解决部门间信息资源的交互共享、数据复用等问题。 (5) 示范应用建设。利用大数据技术在海量数据挖掘、分析研判等方面的技 术优势,建立大数据技术的搜索引擎、可视化关系分析、多维度统计分 析、风险分析预警、等示范应用,在指挥决策、分析研判、预警防范等方 面进一步提升服务实战能力。 .3 建设原则 标准化、规范化原则 系统设计严格遵循国家和行业相关政策、法规和标准、规范。 保密安全性原则 系统设计依照企业相关要求,建立严格、可靠的安全管理机制,确保 系统的高安全性。 稳定高效性原则 系统设计采用先进的技术手段和体系架构,确保产品的高稳定性和高效 性。 先进兼容性原则 系统设计充分考虑设备、终端的异构性、高中低端需求,能够尽可能 多的兼容现有设备、终端。 便捷可扩展性原则 系统设计便于用户使用,不需要进行长期、复杂的培训即可方便应 用。同时系统建设要具有一定的扩展性,以满足不同用户的个性化需 求。 统一规划、分步实施原则 系统建设宜采用统一规划,分步实施的建设原则。逐步完善、分步实 施来完成产权信息的应用,以应用带发展,以效益促应用,逐步实现产 权信息数据服务化。 共享为原则,不共享为例外 各部门业务数据必须向“数据仓库”汇集,业务系统向“数据仓库”开 放,直接共享全公司范围内的大数据资源和服务。 .4 需求分析 产权大数据平台为推动产权信息化向深度和广度迈进,强化动态化、 信息化条件下的业务拓展,在技术层面上形成具有选择性和扩展性的生 态体系,为公司信息化建设提供完善的数据支撑环境。主要需求包括: (一)结构化、非结构化数据量暴涨。产权业务视频、图片、文件等 非结构化数据存储与应用不足,并且业务每月产生大量信息。随着经济 社会发展,未来几年的数据量将成倍增长。如何合理存储、分析、利用 这些数据资源,是业务所 需,形势所迫。 (二)数据整合共享难度大。目前,全公司各类业务信息系统和“海量”业 务数据资源在公司信息网内运行。因历史原因,少量条线式系统在建设 过程中,技术路线不统一,各业务数据分散式存储在各系统内,在技术 层面很难进行高效整合,相互之间不能完全共享,信息资源整合共享的 工作机制没有完全建立。 (三)基于“大数据”分析应用的业务需求日益强烈。“大数据时代”的 到来,为产权信息化建设纵深发展提供了广阔空间,同时也对数据的整 合共享、实 时分析和深度挖掘提出了更高要求。当前,现有数据挖掘和处理模式已 不适应现代业务需求,如何找到一种全新的支撑数据处理的技术模式, 满足各部门业务需求,推动建立完善“数字主导业务”工作机制,是产权 信息化建设发展所面临的重要课题和需要突破的难点。 (四)信息化对服务创新的作用亟待加强。动态化、信息化的服务创 新,对产权信息化建设提出了更高要求。当前,不能完全实现“让数据多 跑腿、让客户 少跑腿”的工作要求;因数据安全和管理权限问题,现有技术架构无法对 外提供完整的信息服务和数据交换,信息数据“内强外弱”格局不能有效 打破,高效服务客户的举措不能有效推进,满足不了客户的新期待和新 要求。 第2章总体设计 .1 总体架构 产权大数据平台在规划、设计、建设过程中,坚持以前沿科技为手 段,以数据为核心,建立标准规范、安全可靠、高效稳定的面向业务应用的 数据服务平台。能够将各类结构化和非结构化的大数据,经过预处理、清 洗、转换、关联、比对、标识之后,变为有价值的信息资产,并以服务的 方式对外发布,实现横向集成、纵向贯通、全局共享的数据服务平台。 为各部门的日常工作、基础查询、综合分析、决策支持、深度挖掘提供 服务。 产权大数据平台建设架构如下图: .2 建设内容 基于企业信息化总体框架,引入虚拟化、大数据、分布式存储和分布 式计算框架等新技术新手段,构筑公司大数据资源库与云计算中心,建 立面向全公司各业务部门的信息资源共享服务与数据分析挖掘技术支撑体 系,积极探索通过大数据技术的强大分析运算能力,充分挖掘海量数据 的价值。通过计算机智能处理、挖掘分析等手段,解决当前突出存在的 获取海量信息数据能力薄弱、信息数据资源分散、共享能力不强、应用 效率不足等瓶颈制约问题,进一步提升公司的信息 洞察能力、分析决策能力、指挥管理能力、风险预测能力和服务社会能力。 产权大数据平台包括数据接入、数据存储、数据处理、数据服务总 线、数据应用和保障体系六部分。 1) 数据接入:通过 ETL、RDS、网络爬虫技术提供高效、丰富的数据集成整 合服务,将社会资源、互联网资源、多媒体、业务资源等各种数据源提供 的数据资源抽取、清洗、转换、装载到数据中心,并保持增量数据实时更 新。实现对所有数据集成整合服务的统一监控管理和配置调度。 2) 数据存储:采用混合存储技术建立数据中心数据仓库,融合产权业务数 据、社会化数据等结构化、非结构化数据。存储方式上,是集中存储和分 布式存储的混搭。 3) 数据处理:利用分布式计算、内存计算、流式计算、分析引擎、人工智 能、数据建模等多种技术,建立分析模型,对数据进行逻辑运算后,快速 向前端应用提供服务。 4) 数据服务总线:是整个平台的调度中心,可以为采集提供数据接入服务, 也可以为各类应用提供数据查询、统计、分析服务。通过规划和建立数据 资源目录,依托数据中心数据交换和共享平台,实现信息资源的注册、管 理、发布和共享,满足不同用户对信息资源的不同需求。 5) 数据应用:通过项目检索、风险预警、精准推荐、数据大屏、分析报告等 多个方面的探索,建立一套数据应用创新机制。 6) 保障体系:从权限控制、安全审计、数据标准等方面,全面加强数据中心 的安全保障。 第3章数据接入 .1 接入内容 .1.1 项目数据 将项目范围从目前的企业产权转让、企业增资、企业资产转让逐步扩 展到债权、资产租赁、融资服务、不良资产的处置、企业采购等其他项 目类型,从交易所从事的业务发展需要出发,实现产权行业交易项目的 国资、民资全覆盖。 .1.2 市场参与主体数据 主体主要包括包含融资方(如各类业务的转让方、出让方、出租方、 增资企业等)、投资方(投资人)在内的交易主体以及包含产权交易机 构、产权交易中介服务机构、市场专家等在内的服务主体。 另外,结合各类主体的不同特性,可单独形成融资方资源库、投资人资源 库、产权交易机构资源库、产权交易中介服务机构资源库、专家资源库 等。而产权交易中介服务机构又可以根据其服务范围的不同划分为更多 的子类,如经纪机构、拍卖机构、招投标机构、保险机构、担保机构、 金融机构和法律事务所、审计评估机构等。 .1.3 资产(权益)数据 将交易标的按资产(权益)种类如股权、实物资产、租赁资产、金融 资产等进行分类整合(资产种类应进行细分,如实物资产可再分为房 产、二手车、设备等),以资产所属行业、所在地域及其他标准属性数 据为基础,辅以评估值、挂牌价、交易时间、成交价格等价值关联因 素,同时结合交易行为数据以及投资人数据,通过大数据分析,能够对市 场中正在交易或准备交易的资产进行价值预测,并发现潜在的投资人群,通 过数据有效帮助市场提高“两个发现”的整体效率。 .1.4 行为数据 各类主体参与产权交易的过程中所产生各种行为的数据,如交易机构 的项目管理数据,融资方、投资人的交易行为数据(如投资人的报名、 报价数据),交 易机构、中介服务机构提供的服务行为数据等。各类行为数据在产权交 易过程中动态产生,与目录中其他数据具有一定的相关性,能够对其他 关联数据进行支持和完善(如各类主体的信用数据)。另外,行为数据 与其他关联数据结合通过大数据分析进行持续、深入挖掘,可在预测行 业发展趋势、市场投资热度、资产价值评测、投资人“画像”、促进服务 主体服务能力提升等多方面发挥重要作用。 .1.5 披露与监管数据 利用信息化手段汇集全国国有产股权、增资扩股、企业增资的实时信息披 露 和过程监测数据。 .2 数据集成系统(ETL)介绍 采用支持关系型数据库、分布式全文数据库、分布式文件系统的 ETL 工具作为数据集成工具。利用多主机集群分布式部署数据集成工具,同 时并发处理大量数据抽取、数据清洗转换处理和数据装载任务,将各种 源数据装载到指定位置。 源数据库 数据集成引擎 配置管理 统一监控 源数据库 数据集成引擎 数据仓库 源数据库 数据集成引擎 …… 源数据库 数据集成引擎 数据集成工具提供数据集成所需的数据抽取、清洗、转换、装载、规则设 计、 流程设计、工作流调度、监控报警、业务审计等功能。 .2.1 系统组成 ETL 工具用于将异构的源端数据,进行提取、清洗、转换处理后,加 载到若干个目标数据库。从而实现按照统一的规则集成数据,有效提高数据 质量、价值。产品由管理中心和在线设计器组成。管理中心用于管理整个 系统的用户信息、系 统信息、网络信息,以及建立业务,并进行业务控制和运行监视;在线 设计器用于调用各种控件建立转换和作业。 .2.2 主要功能特点 1) 支持大数据架构:可将将数据库数据以 RCFlie 格式写入 HDFS。同时支 持大数据库,能够将增量数据写入大数据库。 能够从 HBase 数据库中读取表数据;能将输入流中的数据,写 入 HBase库中。 能够将 oracle、DB2、sybase、ms sqlserver 的数据写入 HDFS。 写大数据库:将流数据批量插入至大数据库中,建立索引。 2) 支持关系型数据库:支持多种关系型数据库,包括 Oracle、Sql Server、 Sybase 、DB2 、Informix 、MySql 、Postgre 等; 3) 内置常用清洗转换控件,包括空值替换、流过滤、行扁平处理、校验 和、常量值、值映射、字段选取、去重复、排序、字符切割、字符替 换、拆分字段、值运算、值连接、范围划分、行列转换等。 4) 内置过滤、跳转、堵塞、空操作、终止、检测末行等流控件; 5) 系统支持脚本编程,可灵活地进行数据转换规则设计。 6) 系统内的监控配置器模块,采用 B/S 架构设计,可以通过浏览器方便的配 置设计数据集成服务。 7) 支持采集流程的审计与报警功能,可以查询采集日志、对采集业务进行审 计、采集流量统计 .3 实时数据同步系统介绍 实时数据同步系统(简称 RDS)是一套数据库数据抽取系统。区别 与传统的抽取工具,RDS 无需依赖触发器,而是基于数据库日志分析技 术捕捉源数据库的数据变化,因此无需在源数据库中建立任何触发器,无需 对源数据进行任何改动。 RDS 基于对数据库日志的在线采集与分析,将源数据库中的数据变化 以事务为单位,实时同步到目标数据库中,从而实现对源数据库数据的 同步采集,采集 过程不会对源数据库造成影响。由于 RDS 具有无干扰数据采集的能力, 因此非常适合用于直接从生产数据库采集数据。 .3.1 增量数据同步 RDS 工作原理示意图如下所示: 源数据库 目标数据库 数据库 日志 采用SMB等 共享文件方式 TCP网络传输 OUTDATA文件 事务合成 日志分析 日志传输 数据装载 采集代理程序 当应用系统在向源数据库进行任何操作时,这些操作信息都将在源数 据库的数据库日志中保存,RDS 能够及时获取这些日志内容并对其进行 分析,得到数据库操作指令和数据,并将数据同步到目标数据库中。 整个数据同步流程可以简单分为四个步骤:日志采集、日志解析、数据 传输、数据装载: 1) 日志采集 对日志的抓取是通过的日志采集模块定时分析重做日志,来获取源端 的日志变化数据的。通过定时扫描并根据日志序列号等信息定位新产生 的日志内容,并将这些日志传输至 RDS 服务器。
| ||
下载文档到本地,方便使用
共 52 页, 还有
3 页可预览,
继续阅读
文档评分

