孙伟:个人可信数据空间及其在诚信体系管理中的应用研究

2017-12-05 22:55 来源:数邦客
浏览量: 收藏:0 分享

11月23-24日,"2017互联网+智慧中国年会"在北京万寿宾馆召开。本届年会以"智绘城市 数造未来"为主题,以数字政府、智慧城市、互联网+政务服务、数据治理、信息社会等为主要议题。会议由中国社会科学院信息化研究中心、北京国脉互联信息顾问有限公司联合主办,国脉海洋信息发展有限公司、浙江蟠桃会信息技术有限公司协办,共有来自全国部委/省/市/区县电子政务、智慧城市、大数据主管领导、行业专家、企业代表、主流媒体千余人参会。

  在23日下午"2017政务信息系统整合共享与数据资产普查研讨会"上,中山大学电子与信息工程学院教授、教育部信息技术重点实验室主任孙伟以《个人可信数据空间及其在诚信体系管理中的应用研究》为主题进行了演讲。

Jfoto2607_20171124_FF1_8903-2_副本.jpg

  ▲中山大学电子与信息工程学院教授、教育部信息技术重点实验室主任孙伟

  以下是会议现场发言实录:(根据速记和录音整理,未经本人审核)

  一.无处不在的大数据

  今天我分享的是"个人可信数据空间及其在诚信体系管理中的应用研究"。"个人可信数据空间"这是一个新词,"诚信体系"大家经常说,为什么要提个人可信数据空间呢?今天处于大数据的环境下,大数据很火爆。麻省理工学院有一个教授讲过,"大数据的影响就像四个世纪前人们发明显微镜一样,大数据将成为我们下一个观察人类自身行为的显微镜"。我认为显微镜这个比喻非常好,为什么呢?因为在大数据流行的今天,我们所有的数据都无处遁形。

  数据除了在国家治理方面统一规范外,就不流动了吗?如果是跨境全球化流动,从纽约流到东京,从西半球流到东半球,如果不实现全球数据规范化,数据该怎么流动?大家有没有思考过?特别是在一带一路的背景下,我们需要走出去,这些数据资源该如何流动?数据资源流动确实带动了整个信息空间的发展,数据越流动就越有价值,如果把数据用死了,数据的价值就会大打折扣。

  二.如何理解个人的数据资产

  在现实空间里每个人都有资产,打个比方,大多人都有房子,在房子里放入冰箱、彩电这些物质资产,但在信息空间里我们的数据资产在哪里?什么是数据资产?以前认为数据资产是数据库、报表、文件、接口,所有数字化的东西我们都认为是数据资产。

  那么我们自己的数据资产到底在哪里?每个人会说可能在政府、医院、企业里。CT的片子在医院科室,所以要看到自己的片子,必须要到医院。但它是你的资产吗?十九大就明确了数据资源的归属问题,说的非常清楚,所有的数据资产归国家,那我们个人有没有数据资产?应该有,我们如何把国家的资产归到个人手里,我们是有相应的主权的,这是我们讨论的问题。

  你把数据资产放到纵向的资源库里,会导致定义不统一,刚才武刚主任谈到每个区办证不统一,数据源不规范,办证流程混乱的问题。那么各个部门之间的数据如何规范呢?我们定义了很多年,从2000年就建立了数据共享,但到现在还没有做到数据共享,资源共享目录也还在梳理,刚才周老师讲了国家层面的梳理,梳理到什么层面才能共享呢,这都是数据资产面临的问题。

  三.数据管理存在的问题

  传统数据管理的方式上,传统数据是把源数据做一些处理,新环境下非结构化数据开始涌现,比如我们的监控、拍摄的数据照片,跟我们的原始数据是混搭的,所以会存在管理模式上的冲突。数据管理形式上看,数据加工的复杂程度和数据要求也越来越多,所谓的交换和缓冲,在服务效率的要求下应对不了。

  从数据转让看,也对我们提出了要求。除此之外还有数据的完整性、可用性、数据的保护、公共的云分层等都给我们提出了挑战。如刚过去的"双十一",有13。8亿条用户的隐私被泄露了,包括个人的电话、住址都被泄露了,这13.8亿条隐私哪里去了?

  四.可信数据空间的形成

  我们在2015年的时候就提出了安全数据空间的概念,这是我们发表的一篇文章,首先我们提出数据主权和边界是否清晰的问题,数据主权到底是归单位、个人、国家哪一个所有?

  第二个是数据流转,我们的数据流、业务流程和数据之间的流动关系是什么,数据从哪里流到哪里。

  第三个是数据安全,我们在数据流动的时候保存、传输数据时,数据安全能不能得到保障。

  我们从这三个方面入手构建了安全数据空间,是我今天讲的个人可信数据空间的一个开始,以前的系统是APP1、APP2、APP3,这样的数据很难打通共享。

  我们的思路是把这些数据当作源数据,以前如果每一个库里的应用是一个医疗平台,会把每个患者的信息放到平台里面,现在把每一条信息、每一个人作为对象,形成这样一个空间,把人从生到死所涉及到医疗、教育、政府办事全部应有的信息放入这个空间里。我从网络里给你分一套房子,每一样东西都给你设定好了,在被叫做档案空间的房子里面,你可以做什么?你可以把个人的数据资产放进去,政府可以把积累的数据放进去,就形成了个人数据资产的空间。个人数据资产的空间里明确了主权,一方面归你所在的应用,另外一方面,你管理自己数据的空间。"每个数据的安全性"是要采用新的安全数据方法,把什么样的数据放在客厅公开,什么样的数据放在卧室里属于隐私的。我们在纵轴定义一下安全维,把这些安全手段定义到字段级的数据上。

  我们看到这样一个3D的空间就形成了,X轴和Y轴是涉及到的用具,纵轴是安全维。这样说很抽象,举个例子比如科研系统的审批流程,每个流程都要走下来,每个流程都有操作的角色,我们的申请人会批给审批人,这样在申请人数据空间里有一份,在审批人数据空间里也有一份,这样就把主权关系定义出来了。通过流程仔细的梳理,形成了这张图,就形成了数据映射,同时数据和用户的主权关系的映射也会形成,你会发现在这个流程里面,谁把数据弄丢了就是谁的事,这个时候就引起了关联,就类似区块链,区块链是给大家分一个账本,如果有这样的一个账本,大家都可以记账,我们根据数据的安全性,从这个空间向另一个空间流转时,我们需要对它进行VPN传输,在每个空间都会定义它的维度和高度,这个维护是根据安全等级不同设定的。

  最终我们形成这样一个架构,所有的源数据都会架构在这个空间里。在这个空间里,把每个人的数据放到一起就是一个小区,这个小区是政府管的,在这个空间里,我们有非结构化和结构化的数据,我们就不会因为数据库的结构去影响存放我们的学历证书和结婚证等这些数据,这些扫描件能够用来做认证吗?是不行的。在数据空间里,我们在上传这些证件的时候还需要政府把这些证照通过政府的授权防伪做认证,例如教育部门把用户上传的证书做认证,政府和用户同时签名之后 ,再把这些证件放到这个数据空间里。下次用的时候检查签名就可以了,可信的数据空间就是这样形成的,每一套系统我们要对它进行认证。

  最后我们会形成这样一套系统,从底层的数据处理开始到数据资产的运用、管理、评估和运营。

  五.可信数据应用案例

  了解一下我们应用的案例,在一个科研平台里,我们可以得到任何申报人的科研信息,当我们把所有的流程按照角色做了数据空间,对所有的空间进行认定后,所有的问题都解决了。我们再进行加密传输和多层级的认证,最后所有的数据都进行了相应的加密。

  1.佛山个人数据空间

  有这个系统开始,我们发现它不光是一个系统,还要构建一个全程的个人数据空间,所以我们在佛山做了一个个人数据空间,可以演示一下。我们用个人的数字身份进行登录的时候可以看到一个页面,通过这个页面我们可以看到现在佛山有十几万人拥有了自己的数据空间,涉及到的证照数很多,而对接的系统不多,但是未来对接的系统会越来越多。在这张地图上红色比较高的区域拥有数据空间的人数比较多,黄色比较淡的区域拥有数据空间的人比较少,这就形成了这个地图上数据空间的分布。

  有了这个数据空间,我们就可以打开自己的空间,并且可以看到这个空间的利用情况,包括我们证照的利用、信息流转的情况。我们在办理各项政府审批的时候,我们用到的所有的数据资源。

  在这样的情形下,我们还可以用个人的数据资产对个人打分,在政府看来什么样的人是比较有诚信的呢?第一是他的资产比较多,不愿意上传个人数据资产的人,说明他把数据资产隐含了,数据资产越多,他的信息就越丰富,证明管控对这个人是透明的,第二是可信的数据资产越多,被认证的数据资源越多,认为他的打分很高。第三个是对社会的贡献度的数据。

  所以我们会通过他的贡献度、数据资产的丰富程度、平时的所有行为数据记录,对他进行一个打分,这个打分程序有一个线性的模型,社会贡献度高,分数就会排在前面,社会贡献度不高,分数就会排在后面,政府会从教育、医疗、办事方面优先考虑信用等级高的人,所以大家会不断的充实自己的个人数据资产。像阿里、腾讯现在已经通过用户画像以及对用户数据的不断收集整理,形成丰富的数据资产,对用户信用进行评级,同时可以对这些证照和表进行授权使用。比如我要去看病,我可以授权每个医院去读取每一张片子,临时授权以后,如果他不愿意临时授权,医院说没法给你看病,这样就形成了我使用数据的权利和授权人的博弈和平衡,想要服务就要公开数据。政府掌握了主权,但是个人也有对自己数据管理的权限,都追求自己数据资产的完善以及可信性,而不是给某些部门输送利益得到优待。

  六.个人可信数据空间和区块链的区别

  最近比较流行区块链,我们的个人可信数据空间和区块链有什么区别?定义方面,个人数据空间是个人的信息形成空间的组成。区块链是形成由集体维护的分布式的数据库,相当于给每个人发一个账本,我们是给每个人发一个空间,数据形式方面,我们是以个人为主体的数据,他一生所涉及的数据资产都会在空间存放,区块链以区块的形式针对某项业务或其他的服务。连接形式方面,我们是以业务流程为主,效率高,区块链是参与者之间的所有连接,区块链交易一次,最短也要十分钟,效果很低。主权关系是主权控制下自主的权限,区块链强调点对点的平等关系,不适用于政府,政府正在尝试利用区块链做应用工作。如果我们在应用工作中以去中心化为基石,我觉得是不靠谱的,必须找到一个方法让政府和个人都有主权,我们在消除主权和个体的权限差异,而不是让它们平等。

  安全保护方面,我们用系统的保护做网络授权,区块链是用加密的方法保护相应的数据。数据分析和利用方面,我们的业务部门可以用相对的权限对整个数据进行利用,而区块链难以对数据进行深入挖掘和利用,它是扁平资质的东西,我们没办法管控它。我们的数据空间可以用于支撑所有人的数据相关的业务,区块链解决的是信任难题。效率方面,数据空间是内部传播,效率高;区块链是半数以上同意才能完成交易,效率低。

  IBM区块链的专家说过区块链其实是在搭建一个生态系统,我们在研究区块链的时候也要换一种态度,他说到区块链的生态系统包括大数据、人工智能、数据科学、机器学习、物联网等,区块链就是一个服务的生态系统,这就是所谓的区块链连接的方式,它会把相应的账本用区块的方式连接起来,而每个人都有一个分布式的账本,所以我们希望政府在数据资产管理方面,不要强调所有的数据资产,而是把数据资源像分布式账本一样分配到个人的名下(给个人相应的权限)。我们认为区块链是一种技术和经济逻辑创新的机制,我们需要一个分布式的结构,需要将互联网发展成为一种经济意识。数据空间可以定义成面向对象的分布式的标签组成,推动分布式的一种创新。

  甲骨文的副总裁说过"区块链就是分布式数据库",这个看法并不完全准确。区块链网络中心的副本需要对点保存,所以甲骨文的核心理念是如何将公司传统方案面向分布式的存储提供一些解决方案,面向对象的存储也被提了出来,面向对象的存储是为个人空间提供技术和方法。

  我们今天分享了数据空间,我们可以把数据从大的池子里面分到每个人的身边,而且让每个人对自己的数据负责,从而又汇集到整个国家的资产里,这样数据就能有效的、有主权的、顺畅的流动,谢谢大家。

标签:

投稿人:zhangxiuqin
在线客服