数据治理的两大基础:数据标准管理体系与数据质量管理体系

2019-03-19 17:34 来源:网络
浏览量: 收藏:0 分享

  完成数据治理体系的整体规划后,需要针对体系内的六大环节开始逐个突破。作为数据治理体系最前端的两个环节,数据标准管理体系和数据质量管理体系可谓整个数据治理工作中的“基础支撑”,今天就来介绍这两部分的工作应该如何进行。

  数据标准管理体系

  一、统一管理流程

  目前全校范围内缺乏专业化的信息标准管理流程,部门间缺乏沟通的统一渠道,导致标准变更和发布缺乏制度化要求,容易形成难以清理的问题数据。在短期规划中,首要提升快速解决业务难题的能力,降低业务操作复杂度。

  因此,采用简明实用的管理流程是标准化快速见效的重要手段。可以参考如图5的信息标准化管理流程。

  1.管理流程:包含信息标准的新建、修改、注销和发布等相关流程。

  2.应用流程:信息标准在需求编制时的应用、冲突协调解决流程。

image.png

图5 信息标准化管理流程

  二、数据标准建设

  1、现状分析

  进行系统调研、建立数据字典以及数据接口的规划和架构

  分析和诊断差距、不足、工作重点

  2、定义初稿

  定义标准体系

  定义内容、主题分类、数据属性、代码

  3、意见征询

  意见征询、宣传讲解、意见收集

  意见审议、意见分析、修订完善

  4、现状分析

  标准会签

  标准发布

image.png

图6 数据标准视图

  数据质量管理体系

  一、全量数据质量监控系统DQAS——瑶光

  随着DT时代的到来,各种数据管理、利用方法日新月异。然而数据预处理、数据质量管理技术的发展却相对有限,很多数据预处理和质量问题,需要人工手工完成。据统计,对数据进行利用之前的预处理工作占整个数据工作量的70%——80%,我们迫切需要对数据质量进行监控。

  DQAS全量数据质量监控系统(全量数据产品线“北斗七星”中的一员,我们称作“玉衡”),这是康赛基于EDQAF教育数据质量评估框架(元规则库)自主研发的数据质量监控系统,可以更高效率地进行数据质量管理,为后续数据利用提供更好基础。

  DQAS集数据快速评估(列剖析)、数据质量检测、数据质量量化监控、数据质量报告,脏数据库管理于一体,利用EDQAF元规则,有针对性地创建全面的数据质量业务规则库。其功能特性有:

  ·      无SQL代码,可视化业务检测规则设计

  ·      大数据可视化数据质量报告

  ·      业务部门数据质量独立报告

  ·      “脏数据库”管理,数据质量治理的真凭实据

  技术特性有:

  ·      首个EDQAF教育数据质量联机评估框架

  ·      规则描述语言RDL支持规则迁移

  ·      敏捷数据剖析

  ·      相似重复数据标记

  ·      数据质量Q值量化指标

  ·      基于内存数据库操作,大幅提高效率

  ·      基于数据可视化技术的质量报告管理

  二、数据质量管理闭环

image.png

图6 数据质量管理系统技术架构

  在数据源层,DQAS支持各种数据库,支持Oracle、Mysql、Sybase、 DB2等各种主流数据库。

  在业务层, 利用EDQAF元规则,结合业务和数据质量监控点可以产生数据质量规则库,规则的执行由DQAS-Engine完成。

  DQAS实现了测量规则运行环境与规则设计环境的分离,任务以服务的形式运行。通过网络连接,用户可以远程添加、删除数据剖析及监控任务,可以远程控制(启动、停止、定时、设置优先级等)任务的执行,远程查看任务执行状况。

  核心组件EDQAF元规则、业务测量规则RDL,脏数据库管理DDM是实现数据质量监控的关键技术。EDQAF元规则最主要的功能是定义完善的数据质量体系基本规则。业务测量规则RDL是按照业务场景配置产生的数据质量检测规则,系统会生产RDL语言描述业务测量规则。脏数据管理是将数据质量测量中发现的数据进行标示、隔离存储,以便于后续的数据清洗和数据变更,同时脏数据库也可以用于错误数据模式挖掘,为将来的智能数据质量检测做好准备。

标签:

责任编辑:bozhihua
在线客服