工信部副总工程师何霞:我国大数据存四大问题

2016-07-19 16:07 来源:中宏智信大数据云计算培训
浏览量: 收藏:0 分享

  首届中国大数据应用大会7月14—15日在四川成都世纪城国际会议中心举行, 本届大会主题是“大数据与智能时代”。由塔塔数据承办、全景网独家媒体支持的经济数据论坛今天下午开幕,工业和信息化部电信研究院政策与经济研究所副总工程师、教授及高工,西安邮电大学经济管理学院客座教授何霞在论坛上做主题演讲。

工信部副总工程师何霞

  何霞认为,我国现在已经进入了数据增长爆发期,在个人数据保护、数据跨境流动、政府数据开放以及数据交易规则建立上还存在很多问题,个人数据保护这块面临非常大的挑战。

  以下为发言文字实录:

  各位朋友,各位同仁:

  下午好!

  首先非常高兴受邀参加本次会议,我的演讲题目是“我国大数据产业发展与监管”,主要讲三个方面的内容,第一方面简单讲一下国家大数据产业发展基本情况,第二方面讲一下大数据发展会带来哪些监管问题,第三方面讨论一下构建大数据的未来监管框架。

  在中国现在经过几年的发展已经基本形成了上游数据,中游产品,下游服务的大数据产业体系,同时我们也看到中国现在比较大的大数据企业大概有两百多家,规模从几十人到几百人不等,2015年行业产值大概是110亿左右。在整个大数据产业链中,从左边数据到中间的产品再到右边的服务,数据这块主要包括三个大部分,第一部分是政府数据,企业数据,个人数据。不管是政府,企业,个人,任何一个企业它都会有大量的数据,它都可能会成为一个数据公司,我们既有数据流通平台上提供的一些机构,既包括数据共享平台,包括数据开放平台,以及数据交易平台构成了一个交易流通这块大数据系统,同时也有一些数据源,包括APP上面的大量数据提供者。从中间的产品层可以看到,一方面有存储数据,计算数据,分析数据,应用数据,里面有大量的开源厂商和闭源厂商,有分析软件和基础软件,既包括结构化数据库和非结构化数据库和大数据平台,再有硬件产品,这样就形成了技术服务运维支撑系统。从右边看它的空间更大,近两年中央和地方在提倡大众创业、万众创新,在创业和创新里数据资源是非常重要的资源,过去地方政府在吸引外来投资和创业或者创新的时候往往是提供一些产业园区的房屋土地以及税收上给予优惠,但是现在可以看到还有一个很重要的资源,就是数据,政府开放一些数据,以及在数据方面提供相关的服务就会使我们的创新创业给予很大的帮助,因此这些年不管中央政府和地方政府在这块都做了大量努力,里面既包括在应用服务层有些政务应用,行业应用,民生应用和企业应用,这里面有大量的中小企业在做这样的工作。再就是数据分析服务方面既有数据处理服务,又有数据分析的服务,这里面相关的公司就更多了。

  还有基础设施服务,这里面主要是数据中心,包括网络服务,仅仅电信业这块,增值电信服务商就是两万家,这里面大部分的公司都在数据服务这方面提供相关的业务。

  我们国家现在已经进入了数据增长爆发期,从左边这张图可以看到,2012年开始我国的数据量是每两年翻一番,预计到2020年我国数据量将达到8060EB,数据量占全球数据量将占18%,从这张图就可以非常清楚的看到2014年是900EB,2015年是1307EB,到2020年就是8060EB。

  这里面最大量的就是互联网及通讯网数据,通讯网现在全球用户也是六、七十亿以上,大量的通话、短信的数据很大,因此它形成了一个ICT大的行业,是全球数据量最大的。第二个是制造业,制造业信息化程度不高,但是它的体量很大,第三个是政府数据,因为在公共领域,包括政府出钱来做的一些科学研究都属于政府数据,这些会占整个数据的第三名。再往下可以看到是银行、证券,这些大家基本上可以想到,最低的是建筑业,所以我们在开玩笑,现在的房子基本是水泥石头盖的,基本是机械化的设备盖的,是比较传统的领域,但是现在在中国已经有了用3D打印别墅,大概一个月时间就可以打印一栋别墅,如果未来3D打印在建筑业的不断增加,信息化水平的不断提升,这块数据量也会有非常大的增长,因此可以看到虽然目前排名是这样,未来可能还会有大量的调整,甚至这里面交通的大数据未来也会有很大的增长。

  中国和美国关于移动互联网的月均流入量分析,这是思科的预测,它预测2019年美国月均移动互联网流量将达到1.5G,中国在2019年大概还是3000多,中国和美国是有很大的差距,可以看到随着移动数据流量的迅速增长,2015年已经达到42亿G,DOU2020年逼近了6G月均每户移动互联网的流量。虽然我们增长很快,但是我们和美国的差距还是很大的,因此也可以说我们这边的潜力还是非常大的。

  从我国大数据的区域发展来看,目前已经有23个省出台了有关74项与大数据发展相关的一些政策,可以看到在京津冀,长三角,珠三角以及中西部都在不断的推动大数据的发展。京津冀这边在中关村大数据这块预测将超过一万亿的产值,天津也提出2013—2015计划,西部的重庆也提出了大数据的行动计划,再就是贵州,贵州这两年大数据发展非常好,它吸引了一些大体量的公司在那边建基础设施,包括大数据分享和应用也做得非常好,不管是京津冀,长三角,珠三角,中西部在大数据发展上非常重视,并且各自区域都形成各自的特点,相关应用上也是协同,呈现非常好的态势。

  大数据发展对我们这块带来什么问题,比如我们可以看到大数据发展的前提下,在个人数据保护上,在数据跨境流动上,在政府数据开放上,以及数据交易规则建立上,在这四个大方面还存在很多问题,个人数据保护这块面临非常大的挑战。

  数据保护面临的挑战从这张图看,在数据搜集环节,因为用户众多,数据量也比较大,这里面一个很大的问题,一个是透明度低,因为你不知道后台在搜集你什么信息。另一个问题就是全面追踪你。过去我们的征信系统一般都是用央行征信系统,现在除了央行征信系统以外,互联网公司也在做自己的征信系统,比如说阿里巴巴基于它的芝麻信用会得出一定的分数,这个分数会评价你的个人信用度,蚂蚁信用分数还可以用于实体上的一些环节,也就是说它是利用交易数据来做这样的一个系统。腾讯是用它的社交数据做它的征信系统,它们这些数据量都是非常大的,不仅仅有大量的数据,同时对数据进行大量的挖掘,这样与传统的征信形成了协同可能。传统这块,比如央行信用有银行贷款信用,交水电费的信用等其他的一些比较静态的基本数据,未来的信用体系的发展一方面是央行这样的体系,另一方面有可能是互联网公司和大数据公司的征信底细的发展,两者相结合会形成我国非常全面的,非常重要的征信系统。

  在数据分析环节它可以分析出深层信息,数据挖掘这块也存在大量的风险,你不知道它最后挖掘出什么样的情况,最后这种分析会对你产生如何的影响,再就是数据之后数据流动,流转的环节,这个环节的控制力非常低,我们在用一些APP的时候,在你下载的时候顶会问你是否同意,同时它也写得很清楚有十项敏感信息要采集,如果你不同意就无法用这个APP,如果同意的话那它就能够用你的这些敏感数据。它采集的数据老百姓就觉得没有关系,但是这些公司会不会把你的数据作为商品去转售,这样你就不知道,因此在流转环节不知道我们的数据又转卖到一层、二层、三层、四层,所以它的控制力是非常低的,越往下越没有控制力。随着流转再往下走,就是关于数据安全方面,这也暴露出非常大的风险,并且很多的危害范围也是不可控的,所以面临的个人数据保护挑战还是蛮大的。

  传统的办法和法律来监管大数据在操作层面非常困难,一方面个人数据的界定是模糊的,你现在不知道哪些数据应该是保密的,哪些数据是不应该保密的,这是很难界定的。再就是范围的无限扩展,过去我们认为我们的信息是我们的身份证,电话号码,但是现在我们会发掘我们的位置信息是最敏感的信息,我们到哪里去了,我们在什么地方,这会是一个非常敏感的信息,因此它的范围也在不断扩大,同时数据也难以做到彻底的去识别化,因此个人数据的界定是非常困难的。

  再就是数据多番流转和后续利用也无法保证能够遵循当时原始采集的目的,比如刚才我讲到的APP应用的问题,我们当时签的可能就是和某某公司的合同,认为就是专用用途,但是它转卖之后就无法保证它当时的目的。再有一个就是知情同意,数据流转的复杂性使得用户知情同意难以有效行使。再就是主体责任,流转和交易都会涉及到多方主体,难以清晰的界定,因此这四个方面就导致传统法律无法解决这些问题,传统的信息保护制度已经无法适应大数据时代发展的需求,不仅仅我们这么认为,包括全球的WEF的研究报告也认为是这样的情况。

  何霞:刚才我讲了大数据个人数据存在的问题,接下来讲数据跨境流动这块存在哪些问题,我们对数据跨境流动的定义现在全球还没有明确定义,但是基本上有两个角度,一个是物理层,物理层就是数据跨国界传输和处理就叫跨境流动。中国出口有一个国际网关,出去了就叫跨境流动,分得非常清晰,这是物理层。还有一个是逻辑层,从逻辑层数据没有跨国界,但是数据能够在第三国被访问了,那是不是属于数据跨境流动。跨境流动有几个模式,第一个模式是跨境交付,也就是说提供跨境服务的同时相关数据也就过去了,因为跨境数据流动必须要依托于跨境服务的提供,也就是说我们如果有跨境服务提供就百分之百会产生跨境数据流动,这两个是完全联系在一起的,所以这是跨境交付会产生这样一种流动。第二个商业存在也会产生这样的流动,比如沃尔玛在中国设立一个商场,它是全球的配置,商品也是全球的,包括它对消费者的分析也是全球的,包括仓储,供应,物流都是全球的,因此你在整个服务提供中中国的数据和其他国家的数据都有可能进行跨境的流动。再有就是境外消费,包括我们的留学、出国这些都有,再有就是自然人流动,包括法律咨询等等,但是最重要的是跨境交付和商业存在是涉及到非常大的,也是会涉及到产业层非常重要的信息流动,境外消费和自然人流动对于前面两个对国家的影响相对弱一些。2015年全国互联网跨界数据量的分析已经超过了1ZB,国家和地区的国际带宽都在不断的增加。

  全球数据跨境流动安全与风险来看,首先看数据泄露风险在什么地方,第一个境外当地数据保护有可能是不足的,数据流转到境外了但是数据保护不好所以你的数据就流失了。第二境外当地执法部门也有可能会强制要求去披露这样的信息,比如说之前美国政府也要求谷歌、Facebook、苹果要披露一些涉及到防火墙和国家安全方面的信息。再有境内侵权行为很难维权,这是很困难的,这是从数据泄露风险的角度。另外从丧失数据资源优势的角度也可以看到各个国家信息基础的能力是不一样的,所以导致在搜集、处理、运用数据的能力上也是有所差异的,美国等一些强国就掌握了大量的关乎整个经济社会、军事、国家安全的关键数据,因此这个数据它掌握之后对于它整个战略,对于它整个的发展,以及一些关键问题上的做法都是非常非常重要的,再有一些部分国家也有可能掌握这些信息会形成信息资源优势和战略控制能力,因此不管是从数据泄露风险以及丧失数据资源优势这两个角度来说,全球跨境数据流动这块都是需要我们非常关注的。

  过去欧盟对这块关注度不是很大,在安全问题上全球有一个里程碑事件,就是斯诺登这件事,通过斯诺登这个事儿都知道美国对各个国家的监测,欧盟也是这样,欧盟现在在数据这块是比较谨慎的。

  从各个国家管理跨境数据流动模式上来看是不一样的,许多国家会要求它的服务器必须要在本地,中国也是这样,中国是要求外资,包括苹果、优步它们都必须把它们的数据服务器放在中国,否则是不会同意它在中国进行经营的。再就是以美国为首的比较倡导自由的流动,因为它是互联网发展最好最强的国家,信息技术也是最强的国家,服务器也在它那里,所以它的流动性和获取信息能力是最强的,所以它是比较倡导自由流动。欧盟自从斯诺登事件之后对于跨境流动这块就开始严格管理,基本上就是三大类。

  第三个风险就是数据交易规则的缺失,缺乏一个统一的数据交易规则就会使得数据交易处于产业探索的阶段,这里面有几个大的问题,第一个数据权属不明确,数据的权利类型都没有得到共识,部分数据权利主体也存在争议,比如说行为数据到底属于谁的,又比如说我们的位置数据到底是属于我自己还是属于采集我数据的公司的?这里面有两种说法现在一直争论不下,有一种说法就是说这个数据是我个人,但是还有一种说法叫做投资原则,所谓投资原则就是互联网企业说我投了大量的资本在做相关的互联网应用,那么我在让你下载APP的时候你也同意我用你的数据了,因此在这个前提下你的位置数据我是可以用的,这是互联网公司的逻辑,但是很多消费者认为这个数据是他们自己的,所以这个问题上还没有明确的定义。

  第二个就是数据交易标的问题争议也是非常大,对于哪些数据是可以交易的,或者哪些数据是禁止交易的现在目前都没有规定,再有就是数据资产评估存在困难,数据定价公式是什么,供方定价是什么,拍卖怎么拍卖,买方怎么出价。数据安全也是最大的担忧,数据平台,控方,买方,对于其控制数量都是需要从各个方面保证它不泄露,但是现在这块又很难做到。前一段时间几个省的社保数据都被泄露了,所以是存在一些技术问题和管理问题。再有就是数据交易机构也没有明确,缺乏一个监管机构对数据交易和数据交易中心的纠纷进行监管,因此在数据交易规则上确实也存在很大问题。

  第四个问题就是关于政府数据的开放,我们知道政府是数据资源一个很重要的拥有者,美国是倡导数据开放。前一段时间我们和美国一位官员在沟通,我们说你们的政府数据开放顺利不顺利,遇到什么困难?他特别友好的笑了笑给我讲,他说其实我们也不想开放,我们也没有办法,因为政府有立法所以就必须要这么做,他说之所以不愿意开放是为什么呢?其实不开放这个数据是真是假,是否准确都没有关系,但是一旦数据要开放就必须要搞准确了,否则你开放之后大家会去指责你说数据不准确,这样会影响政府的形象,所以他们在政府数据开放中花的资源最多的就是切割它的数据,核准它的数据是不是准确的,所以这种政府数据开放我们是非常提倡,但是过程以及开放中涉及到的大量成本有很多的阻碍。同时政府数据这里面也蕴藏着非常大的价值,但是在政府数据开放中也会涉及这样那样的问题,比如说会涉及法律问题的分散而复杂,我们的隐私保护问题,信息安全问题,信息自由的问题,以及各个部门信息立法的问题。再就是涉及到众多政府部门和公共机构协调难度特别大,我们国家之所以在政府数据开放这块还在慢慢的向前走,走的速度还不是很快的情况下其实很大问题就是部门之间的一些协同还有很大的问题,这里面就包括不具备数据开放的组织文化,流程,还有一些尚未把数据进行管理等等一些问题,开放数据一些具体问题也需要进行界定,比如开放渠道,范围,豁免,格式,标准等这些都是问题。

  从政府来说,北京、上海、无锡、青岛等一些地区都在开放数据资源,但是2015年有一个全球开放指数的评价,一共112个国家,我们国家排93名个,这里面分析来说就主要是我们国家的交通、地图等十大关键领域我们的数据开放整体水平比较低,这就是一个结论。这里面我想讲一下,比如说交通这块,交通这块最近这两年发展得比较好的是车联网,车联网发展关键就是车联网大数据平台,如果有了这样一些平台以及大量的跨行业的数据它会整个改变它的商业模式,同时它会开展大量的应用,包括车辆运行状况分析,驾驶行为分析,汽车性能监测分析,这些都可以做,这里面关键的是需要数据,尤其是交通数据这块政府持有量是非常大的,这里面上海做得非常好的探索,它在2012年就首先启动了空间地理基础数据库的开放,它有什么作用呢?过去很多地图公司是沿着街去照照片,把照片信息不断标在地图上形成现在的导航信息,这个过程需要大量的成本,并且也需要时间,再一个是不准确。但是政府如果能够开放这块的地理空间信息,这个相对来说更准确,如果是无偿的话就没有成本,这块会大大减少地图创业公司的运营成本,这些都是会推动大众创业、万众创新非常好的做法。

  上海已经提出我要形成一个负面清单模式,什么叫做负面清单模式?也就是说只要它不明确的地方其他的都需要开放,有一些关键设施不开放,那么其他没有说的就开放,这就是负面清单模式。上海市这么做了,我们认为全国要有这样举措,我们要落实大数据行动计划纲要,首先要开放一些高价值的数据,包括一些没有争议的,惠民生的,易开放的数据要先行,再有要推动政府数据跨部门的共享,所以要加快数据的互联互通和信息共享,丰富面向民众的信息服务。

  未来我们还是要构建大数据的监管框架,首先要加强个人数据保护,这里面需要推动专门立法,现在关于个人信息保护分散在不同的法律规定和政策规定中,包括最近出台的《网络安全法》涉及到一些个人信息保护问题,但是中国没有一个专门的立法提出来要保护个人信息,欧盟是有的,所以我们现在提倡应该要推进专门的立法。

  再就是要细化一些执行规则,有些东西只是大概的东西,比如某些重要的要保护,哪些是重要信息,哪些是敏感信息,这需要具体规则。再需要强化行业管理,明确哪个行业主管部门个人信息是哪个部门管。再也需要行业自律,企业和公司需要在这块加强自律,同时要完善数据保护标准体系,以及发展第三方评估,包括认证体系。

  第二在跨境数据流动方面,首先的原则就是保护产业,因为国内的云计算、大数据产业尚未形成大规模,因此我们需要数据分级分类管理,加强跨境业务境外合作和协同监管。第二要保护安全,重要行业数据以及涉及国家安全的数据要强调实施跨境数据流动安全风险评估。第三要保护资源,也就是说占据数据资源从而可以获得整个国家在国际竞争中的竞争力,因此要建立跨境数据流动监测手段和立法出台。

  再要建立数据交易规则,明晰数据产权,抓紧确立数据交易规则,建立大数据交易隐私与信息安全评估机构,涉及隐私与信息安全问题要求交易方旅行充分的匿名化的义务,在安全风险比较高的要限制交易对象,并且通过合同对购买方提出一些要求。最后就是继续推动政府数据开放,一方面我们要政策引领确定国家层面的计划,第二要机构推进,成立相关机构不同推进,第三要有不同的措施,再就是需要有制度保障,要确立开放数据的原则,要建立数据管理的相关制度。


标签:

责任编辑:admin
在线客服