钟乙乔:数据母体-数字基建底座

2020-12-02 17:41 来源:数邦客
浏览量: 收藏:0 分享

11月26-27日,由中国社会科学院信息化研究中心、北京国脉互联信息顾问有限公司、舟山国脉集团有限公司联合主办的年度改革创新研讨盛会(第16年)——“2020智慧中国年会”在北京召开,以“十四五前瞻与智治社会建设”为主题,共有来自全国部委、省、市、区县电子政务、智慧城市、大数据主管领导、行业专家、企业代表、主流媒体千余人参会。

本文系国脉集团产品经理钟乙乔于11月26日下午在“2020智慧中国年会”上的“新基建赋能数字社会——数字经济篇”分论坛上的演讲,演讲主题为“数据母体-数字基建底座”,内容通过现场速记整理,未经本人审核。

钟乙乔.jpg

「国脉集团产品经理 钟乙乔」

 

<--------------------以下为演讲内容------------------>

各位领导、各位嘉宾,大家下午好,我是网脉科技产品经理钟乙乔,前面各位领导讲了关于数字新基建的一些看法、思路和运行方式,作为数字经济的一个底层,接下来我给大家介绍数据母体——数字基建底座。

一、建设背景

(一)数据治理的难点痛点

在数字新基建的发展环境下,我们长期关注数据治理这个重要关注点。只有做好数据治理才能把新基建的最基层工作做好,数据治理的难点、痛点主要体现在以下几方面。

一是数据标准化低,很多业务公司、技术公司在创建一些数据库或者一些表字段时,对于字段的规范、长度和类型都没有做到极致的标准化。

二是数据交换成本高,正因为数据不标准,这些问题就导致做数据交换的时候成本比较大。比如实际项目需要外部接口或者底层数据去交换的时候,就要花大量的时间和人力做对接,甚至完成对接以后的结果并不是非常理想。

三是底层数据重视程度低,业务数据的基础库和数据元池存在着缺失。

四是跨行业数据融合困难,发生跨业务数据融合时非常困难。数据之间无法完成精准的供需匹配。

这些都导致多网并存、信息孤岛、二次录入、数据壁垒的现象存在。

(二)数据标准化影响数据应用质量

在规划方面,很多大型项目在开展的前期缺乏数据规划,缺乏系统性的框架结构;

在标准依据方面,数据标准的依据标准都是不一的,有些使用了国家标准,有些使用了行业标准,有些甚至没有使用任何标准,这导致了数据定义各异;

在应用方面,我们对于业务字段和技术字段会产生一些歧义,同样的字段名称在不同的业务和技术体系当中代表的意思不同,可能造成逻辑关系脱节现象。

所以要做好数据标准化,做好字段的标准化,对象定义的标准化,代码的标准化,还有业务指标的标准化等。

(三)统一规范的数据元是数据标准化的基础

数据元是数据的最小的单元,它的质量好坏直接影响对语义的认知,在我们的数据传递、流通、交换、融合、共享当中,它都是最底层的、最基础的要求,数据元是数据的“底层建筑”、在数据体系中具有基础地位,数据母体是新基建的底层。

(四)政策要求做好数据化标准工作

近年来,国家及地方相关政府主管部门接踵发布各自领域数据元标准和数据元目录,如国家标准化委员会《电子政务数据元标准》、北京《法人基础信息数据元目录规范》、安徽《公共信息用信息数据元目录》、辽宁《渔业信息化基础数据元》、湖南《地名数据元规范》等。

二、数据母体

(一)产品概念

数据母体是基于公共数据元与电子政务主题词的数据治理综合服务平台。它提供高质量标准化的服务,为数据治理与数据质量再造提供综合性解决方案,构建全球数据体系的语言词典——数据元字典。

数据母体主要从“软件、数据、咨询、服务”四个方面为数据治理提供服务。软件方面,我们有数据治理的综合服务平台、数据标准发源地和数据质量标准检测场、标准化数据的加工工具、原始数据质量的诊断工具;数据方面,收录了国家出台的标准文件,收录了电子政务主题词、公共数据元,还有标准术语和标准分类等,为数据治理提供一套标准政务数据设施,为异构数据间的共享、转换、互操作、质量管理、内容加工与服务等提供基础;咨询方面,当用户有需求,我们从行业领域、时间维度为用户去梳理应该涉及的最基层的标准,还包含一些指标评估等的咨询服务;服务方面,我们提供数据服务和产品服务,也可以数据+产品组合的方式来做好数据治理。

(二)框架结构

数据母体框架.png

框架结构图

产品框架结构主要分为数据来源、存储层、功能层及应用场景。其中数据来源主要为国家标准文件、行业标准文件及其他;存储层包含公共数据元池、电子政务主题词库、数据模型库及标准数据元池;功能层主要包含池库定制、数据比对、数据清洗、数据元关联分析、标准设计、模型应用等功能;主要的应用场景包含标准查询、数据建模、质量分析及数据检测。

(三)运行逻辑

运行逻辑是依托于数据母体当中的数据,经过清晰比对,把标准数据存入到公共数据元池当中,通过对数据的定义和业务的定义来对应用场景做设定,构建数据模型。再将这些数据分层分级分类,形成数据集市以供用户按需选择。另一方面,通过规则配置对用户原有数据进行质量检测,将结果生成诊断的报告,附加咨询梳理服务给出对原有数据情况的整改建议。

实例:在政务大厅或者网上办事的时候,有些材料会写来源渠道是共享还是自备,共享和自备的前提是底层数据要统一和规范,也就是说大家所获取到的材料名称必须与实际数据库里的数据名称一致,不能出现歧义,不然数据无法共享。

(二)产品优势

1.数据量全:目前已收录国家发布的标准文件1764份,公共数据元372883条,范畴目录190个、范畴表政务主题词24151个,行业主题词16180个,标准术语1909个、分类编码1304个,区划地址63895个(部分细化到省市县区街道楼道)。

2.颗粒度细:收录的数据细化到了数据元标识符、数据元类型、数据元表示、标准文件标准号、版本(年代)号、ICS编码、CCS编码、发布机构。

3.自定义配置:数据维度、领域可配置、数据模型可配置、清洗规则可配置、诊断报告可配置。

(三)应用场景

1.快速建模生成数据元基础库。基于场景需求定制,特别是各地政府对数据元采集、整理、建库的规划需求,通过标准数据元组合,可快速建模形成法人、船舶等各行业数据元基础库。

2.辅助构建标准核心数据元池。核心数据元池建立,是各地政府信息资源标准化的基础。根据实际需求,梳理出核心数据元,并通过数据元清洗比对、标准化处理和智能标注关联,构建标准的核心数据元池。

3.行业数据元评估清洗标准化。助力提升数据元质量、规范数据交换底层。

4.事项梳理标准数据表单建设。平台支持标准数据元自由组合、关联、建模,可协助快速创建和生成标准数据表单,且数据元标准规范统一,也有助于“多表合一”,提升事项梳理效率和标准化程度。

5.软件质量问题与标准化检测。借助相关数据元标准、体系、方法,可在一定程度上辅助软件系统在研制和维护过程中形成适用于各领域系统数据质量问题的高效预防措施和最佳解决方案。

6.基于数据服务创建应用模型。通过大数据分析应用、自定义报表,实现数据的可视化展示;通过组织画像、个人画像等数据多维度分析,清晰了解业务对象的现状与需求。

三、产品价值

(一)全要素建立数据资源体系

“数据母体”支持海量数据元存储,用户可根据需要批量导入数据元到其专项数据库或系统,对其数据元资产进行存储,并利用平台提供的数据元目录、数据元资产统计、数据元清洗、数据元校验、智能关联等模块,有效管控数据元。

(二)全阶段推进数据标准落地

“数据母体”收录千余份涵盖国际、国家、地区、行业权威的数据元及数据元值域的标准规范、数据字典等,并持续扩充,借助数据元标准化处理,推动数据元标准落地;用户对数据元标准的选择、反馈,也有助于各行业数据元标准的优化改造,并进一步提升数据元“上层建筑”数据、信息资源、事项等的标准化。

(三)全流程提升数据质量

依托“数据母体”,对数据元进行标准化检测评估和可视化统计分析等,有助于从数据元层面排查、追溯和定位数据质量问题发生的症结所在,包括数据元名称同义重复、值域格式不规范、数据元与其值域不关联等;基于问题有针对性地对数据元进行清洗比对、标准化、智能标注关联等,可有效提升数据元及数据质量。

(四)全方面打造共享开放应用

“数据母体”支持数据元消费者、提供者、服务者、运营者等注册入驻,并提供丰富的API和多样化数据采集方式,实现数据元产业链内外各类资源不断集聚;平台用户基于交易和支付系统,可进行数据元相关资源与服务流通,促进数据元资源应用变现与服务创新。

四、核心服务

(一)数据元质量检测服务

利用数据母体,根据预先配置的规则、算法和度量指标等,对客户拥有的数据元资产进行在线质量检测,包括数据元同义重复、标准化程度等,并可视化呈现检测结果;同时根据客户需要,可由专业咨询人员提供深度数据元质量检测评估分析报告与相关改进、优化方案等服务。

(二)数据元池库定制服务

根据客户需求,通过标准数据元选取组合、清洗比对、智能标注关联及数据元目录编制、模型创建等,快速构建各种领域、行业、主题的标准数据元基础库、核心数据元池和核心数据字典,且支持通过API开放相关数据库授权服务。

(三)数据元建模服务

提供大量数据元模板,用户可自主选购自己需要的标准数据元模板;当标准数据元模板无法满足需求时,用户可借助数据元公共服务平台、以标准字段自定义创建契合自身业务需求和业务应用的数据元模型。

(四)数据元在线标准设计服务

针对不同行业、不同主体,基于现有权威国际/国家/地区/行业数据元标准和标准数据元,结合实际应用场景、行业特色和客户需求,在线设计、整理、编目、编制符合需求的各种领域/行业、主题的数据元标准;提供数据元标准导出、整理成符合相关格式规范的数据元标准文件等服务.

五、应用案例

数据母体已经在多省市,多个地区,项目上实际应用。

浙江省—— “最多跑一次”全省事项数据串梳理

深圳市——政务信息资源目录白皮书(2017)及核心数据字典项目

浙江省——全省核心标准数据元池建设

海南省——法人库、人口库基础数据元\扩展数据元信息梳理

公安部——大数据时代基础信息采集录入规范研究

南宁市——政务信息资源目录梳理服务项目

舟山市——舟山市民生基础信息数据标准和交换规范编制

上海徐汇区——政务信息资源目录体系建设

北京西城区——大数据资源目录梳理服务项目

佛山三水区——政务信息资源资产清单梳理

···

数据母体产品今天就介绍到这里,谢谢大家。


标签:

责任编辑:bozhihua
在线客服