拓尔思史超:大数据智能在政务服务领域的应用趋势

2016-11-24 16:11 来源:数邦客
浏览量: 收藏:0 分享

2016年11月24日,由中国社会科学院信息化研究中心、国脉互联政府网站评测研究中心主办的政府大数据与数据开放论坛,拓尔思电子政务方案中心总监发表了主题为“大数据智能在政务服务领域的应用趋势”的演讲。

IMG_7856.JPG

 拓尔思电子政务中心 总监史超 

    史超:各位专家、各位领导,大家好。今天我给各位带来的题目是大数据智能在政务服务领域的应用趋势,刚才很多老师已经介绍很多了,在政策上我们需要做大数据,需要做智慧城市这样一个建设的目标。从我们的角度不再赘述了,各位领导可能也非常清楚,做智慧城市,做大数据的智能化管理对我们来说是非常重要的一点。

    什么是大数据,大数据的分析能提供什么样的管理,下面我们从技术的角度上来说,我们可以分成四个V,主要体现在数据量大、实时性高、结构多样、价值密度低、真实性。我记得胡老师讲一个数据,数据是垃圾数据。在我们这里讲是价值密度低的数据,实际上过去我们做的是抽样的管理,每条数据代表一类人群,代表了一类信息的体现。

  从我们现在的角度,大数据分析的角度来讲,价值密度低实际上体现出来我们要对全盘的数据,对所有的数据,对日志的数据都要在整体智慧分析管理平台上进行管理,这个有别于之前我们做传统数据分析的时候体现的非常重要的一点。

  什么是架构多样呢?最早我们做数据分析,更多是基于数据分析,现在我们不光是基于数据,还要基于本身数据的多样性进行考虑。比如说我们考虑图形和3D的管理,研究院和学术界有很多丰富结构的管理。

  同时要提供实时性,对大数据的管理需要进行实时新的管理,我们随时想知道这条信息,随时对数据进行分析的时候,实时可以考虑我们之间的分析结果。

  现在这里面举了一个例子,前两个月组织美国大选的图形,这个图形里面我们非常直观的能感受到,上面是希拉里,下面的蓝色图形是特朗普。为什么说结果和之前的反差会非常大,整体的流程特朗普是没有胜算的,但是在希拉里为什么有这么大失败的案例出现,实际上上我们要提到第五个V,就是数据的真实性。

  整个民调显示结果,我们可以了解整个数据产生的时候是抽样的数据,并不是说数据是来源于社会,并不是来源于整个互联网的数据,这些数据很有可能只代表一部分人。很可能对美国的民众造成的无知无不不言,这个是体现的我们做大数据智能,一定是全盘的数据,是全部的数据,是海量的数据,而不是做抽样的数据。

  从大数据的演进来说,我今天的题目也是大数据智能,说白了我把大数据和人工智能合在一起。刚才有老师也提到大数据,也提到过人工智能,怎么把大数据应用到人工智能管理范围之内。第一个是感知智能,第二个是认知智能,第三个是大数据智能。围绕着我之前做的过程当中,在这里我要建设大数据智能管理平台,我简单举一个非常成熟的案例,其实就是汽车领域。

  刚才胡会长也提到汽车领域,我们最早学习驾驶,在驾校学开车实际上是感知的功能,我们学习的如何开车,如何使用档和方向盘。到了认知智能,就是汽车提供了更多样的服务,比如说有安全性、ABS,包括ESP,以及自动巡航技术,这都是在一定范围内让汽车里面的芯片了解到我们要做什么事情,我们主动的去做一些安全的考虑,这是认知的。到大数据智能,汽车能实现一个什么呢?实际上现在我们提到自动驾驶技术,为什么到自动驾驶技术呢?我们说大数据智能,我们整个汽车芯片要存大量的业务数据,比如说是弯道,比如说是红绿灯和行人,我们让汽车完成自我的认知,在整个从几步一直到整个汽车行使交互形态里面,大数据提供给汽车是什么,我如何判断一件事和如何处理一件事,如何解决一个问题,这个就是大数据结合人工智能需要演进的过程。

  结合到这次会议的特点,就是如何去做一个大数据的政务平台,政务的应用里面需要提供哪些服务。首先我们要考虑到理论的知识,的人工智能里面的特征、价值,包括现在和未来的预判,包括大数据本身隐含的一些隐私的数据。包括有一些用户的画像,这些数据实际上是为我们大数据政务服务提供了一些理论的管理,第二部就是要结合我们现有的技术,这个技术实际上是来源于我们现在成熟的产品,以及我们很好的解决方案。包括云计算、分布式管理、并行的计算,这些计算的成熟,影响到我们什么,我们可以达到一个大数据的实时性,有了技术和理论,现在我们需要做什么,实际上就是面向用户、面向我们内部的业务系统,实现一个实践性的感知服务。

  这里我提到了四点大数据的政务服务,一是互联网大数据,我们政府应该从十几年前就开始做了。最典型的是舆情,很多政府包括央企都做过舆情,我们同互联网的主流媒体、主流评论、主流论坛里面获取到大量互联网用户的信息,我们进行整合、分析、发现,然后找到了相关的热点,这就是互联网的数据。面向政府的服务,现在我们也做了很多。包括给环保部、专利局,包括给一些金融机构做了很多政府的管理,这些政府的管理更多是面向政府内部业务,我们有二十多年政务的数据,政务的资料,我们需要进行整合。然后发现所有分散的数据里面进行快速的管理,二十多年来我们的数据都有什么样的作用,未来二十年前我们政府是怎么样的,实际上就做了很多政务,这也是现在我们做的很多工作。

  第三个和第四个实际上是面向公众提供服务,现在包括国家工商总局,包括海关、税务,我们做了很多面向企业的管理,这个管理比如说自动应答,机器人式的回答,面向服务里面,我们可以把一些资源,包括现在一直在做的征信服务,实际上也是大数据的一部分,这些征信服务很有可能推向给企业和个人,来提供一些借贷,包括一些数据申请这些服务的管理。

  第四个是个人的大数据服务,面向智慧城市我们提供了个人的服务。比如说这里面有个人的申请,比如说在线办事、政务服务,这个实际上就是结合了大数据智能,我们依赖这个理论和技术,实现了大量的实践的应用和服务。

  从整个大数据智能管理体系里面,我们可能要围绕着从软件、技术进行分析和解读。从上面我们可以理解到,一个数据,一个系统,我们要建设平台,建设什么?首先需要进行云服务的架构设计,未来我们搭建的平台不光是为我们内部用户来用,很有可能我们的数据整合好以后,我们把更多的数据会推向给社会,推向给公众,来起到政府便民服务的效果,这个就是我们要采集数据需要大量的硬件设备。

  其次就是面向全媒体,现在我们的数据不光是PC端,现在我们讲PPT用PC端,但是现在在座每个人都有手机,我们所在的位置结合到物联网,我们的位置信息,我们访问的缓存信息和聊天记录,这里面有大量的记录需要提供给我们政府进行一些应用,这些应用也会结合到全媒体来进行一些服务,这就是人和机器之间的交互过程。

  结合到软件,软件里面学习什么,学习体系实际上最早是来源于人工智能,这个人工智能包括深度的神经网络,包括我们公司一直非常重要的核心产品、文本挖掘技术。包括现在我们做了很多语音管理信息,这里面都是来源于深度神经网络里得到的一些技术要点。第二个是数据壁垒,实际上政府有很多数据是有壁垒的,我们要打通壁垒。通过什么打通壁垒,所有分散的数据我们通过内部建立一个本体,什么是本体,我怎么描述一场空难从起因、经过、结果的过程。我们通过本体来分析一个事件,通过本体来了解业务系统里面都有哪些数据来提供服务,这里就打通了数据的管理。

  包括我们整合了所有部委之间的数据要进行有效的关联服务。结合机器,结合深度神经网络打造一个大数据智能生态管理系统,这里面围绕着我们本身要提到的自然语音处理,围绕着我们对对海量数据的检索和分析管理,围绕着我们建立多维度知识体系管理。这些知识的来源更多是来源于数据的资产,这些资产实际上代表了我们内部的大数据知识体系,打造多维度指示体系,实际上打通了这个壁垒,通过网状的形式进行关联,形成了跟内部多维度知识管理体系。

  建立大数据智能管理体系平台,我们需要搭建一个完整的平台架构,整个平台架构,我们可以分多层,首先是大数据的整合。我经常接触很多政府的用户,我们经常说不做大数据,我们没有数据,为什么没有数据,实际上我们内部有很多数据,我们内部的数据积累了20多年、30多年,很多部委都已经建立了很长时间,数据很有可能在OA系统里,在我们的邮件系统里,在我们积累的大量数据里面都形成了海量的数据,我们可以拿过来进行分析。有的数据来源于互联网,我之前接触过一个军方的,军方认为我们还要采互联网的数据,为什么?很多军事爱好者的信息比我们本身军队内部掌握的信息还要全。所以互联网的信息一定是在我们本身政府内部应用过程当中进行完善和整理的,这个整理的数据也会给我们大数据智慧平台打造一个非常大的考虑。

  数据进行整合完以后,我们建立了一个大数据中心,这个大数据中心可以进行存储,可以进行管理,可以进行数据的分析,包括进行文件的管理,这个也是支持结构多样化的过程。通过大数据计算,我们进行机器的自学习,了解到我们的机器可以判断,我们之前可能没有了解过的业务,我们没有了解到的信息。在我们现有的数据里面都是怎么体现出来的,这是可以通过大数据计算的方式来进行整合。

  最终,我们实现了一套大数据的应用工具,这里面包括非常常见的,比如说检索,这个检索是分多类型的。并不是像传统意义上百度、谷歌的检索,是面向内部结构业务的检索,实际上也会随之影响到我们未来的知识管理体系,知识的管理体系实际上就是可视化的数据分析。我们把整个一张网当作知识的图谱,通过知识图谱任何一个节点,我们都可以具体了解到知识都来源于哪里,发展到哪儿,未来可能会产生什么样的数据,这个就是我们要建立一个整体的架构,这个也是从我们做的信息技术化的公司来说能提供给用户建立的一种模式。

  提到人工智能我们会提到深度神经网络,作为拓尔思做了有将近二十多年中文语义分析,这里面也整合出了整体的文本挖掘的工具,这个工具实际上要起到什么样的功能,一个是聚类分类,我们要把海量分散的数据进行有效的整理,这个整理的过程我们会进行数据的有效整合。第二个是信息的抽取,海量的非结构化的数据,我们要抽取成结构化文档,这是依赖于文本挖掘技术来体现出这样一个过程。

  第三个是智能分析的扩展,我们基于现有的数据进行数据的关联和挖掘,我们找到数据跟数据之间的关联关系,建立起了一张庞大的知识网络。

  第四个是基于智能搜索,我们面向机器人,面向智能回答方式,我们通过这种智能的搜索平台来实现这种服务。然后是情感分析,有可能来源于互联网,有可能来源于政府的内部有一些评论,有一些内部的讨论声音,这些情感我们都有可能会影响到我们未来。比如说针对一个事件,三峡水电站十几年前为什么一直反对建三峡,我们通过情感可以分析到这些数据。

  建立这样一个大数据智能平台,实际上我们通过多种解决方案,作为拓尔思公司,我们在政务、专利、金融、安全在内做了很多应用。我们也做了很多服务,包括技术的服务、数据的服务来进行管理。

  这种管理的服务,我们可以应用到很多机构里面,包括这里面所提到的政府机构,智能政务平台可以提供面向物联网的感知、互联,包括数据之间的共享和智能化的建设,这个智能化建设刚才我们提到了知识要建立一张网络,知识的网络是什么样的网络,实际上这是智慧城市的网络。这个智慧城市,我们看到它建设的环节,首先是一个主体,人是我们整个智慧城市建设的主体非常重要的一部分。从婴儿一直到退休,从我们本市的人一直到外来人口,包括外国人,他们需要办理什么样的业务,业务有很多。有可能外来人口办理医疗、生育,有可能处理公安事件。实际上根据多委办局的管理打通这样一个网络结构,建设整个智慧城市模型的体系。

  我们也做了很多跟税务,包括知识问答相关的数据,这是杭州电子税务的案例。我们要做到数据的问答,很多电子商务平台都有职能问答,政府可以基于内部的知识点建立起知识问答体系。

  同时,我们也跟国家环保总局做了大数据分析的项目,环保总局积累了将近二十多年的数据。非常显而易见,之前环保内部里面有大量污染的信息,汽车污染、河污染、生态污染。在不同时期什么样的污染条件是非常重要、非常明显的,我们可以通过现有的一些数据来进行现场的分析,分析出来方便我们用户来对我们未来有可能造成的一些重要的污染源进行管理和控制。

  除此之外,我们还做了很多专利服务,背景就是公司申请惯例,提交到国家知识产权局对我们的数据进行审核,这个审核的过程实际上就是基于大数据的管理,我们有将近1PB的数据在这里面,帮助审查人员进行快速准确的检查效果,实际上这个应用了大数据智能平台的4V,一个是数据的大量,包括专利里面有文本、图片。结合文本和图片,我们还要进行实时性,十几秒钟可以在1PB数据里面生成报告,同时结合图片来进行快速的认知管理,实际上就是结合图片、结合文字,我们要认识到哪些专利是跟我们相似的,非重复的,帮助国知局进行管理。

  结合专利大数据,我们还做了跨语言、图片、局部的检索,这里面也是结合到我们的大数据,结合到我们的人工智能管理体系来进行管理。

  除此之外,我们还做了很多金融的案例,包括金融打非、P2P厂商服务,包括对银行金融行业的监管,这些监管来源于哪儿,还是刚才提到的要做数据开放,数据开放的目标是什么,实际上就是为监管系统,为我们的企业提供更多有价值的服务。我们大量的数据来源于哪儿,工商、税务、银行、航班、住宿信息。我们可以随便了解到哪些P2P厂商领导层有出国的记录,有款项大量占用的记录,实际上都是对金融企业非常重要的一点,通过不同的指数我们建立起了一套完整的智慧分析的模型。通过模型我们来帮助用户进行数据的服务,这是我们围绕着大数据智能服务平台拓尔思这两年收购的一些企业,这些企业除了做安全、数据,包括做更多金融服务,征信的服务,包括做一些广告管理服务,这是拓尔思在大数据智能领域起到的作用。

  在政府管理上,我们围绕着大数据管理,之前也提到过了,我们政府需要简政和放权,政府未来主要的管理方式实际上就是数据的管理,对数据的管理分为数据的采集、数据的收集、数据的管理和数据的开放利用,这个成为未来政府非常重要的业务管理方式,这就是我今天给各位分享的案例,谢谢大家。


标签:

责任编辑:admin
在线客服