《影响中国大数据产业进程100人》第17期 郑曙光:国内企业如何正确实施大数据?

2016-04-07 17:04 来源:首席数据官联盟
浏览量: 收藏:0 分享

前言:

大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由中国首席数据官联盟与网加时代网发起并承办,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟、数邦客协办的“影响中国大数据产业进程100人”大型人物专访活动全面启动,被采访对象分别来自政府、产、学、研、企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航,敬请关注

第十七期专访人物:中国首席数据官联盟专家组成员,翱旗科技CEO    郑曙光


郑曙光,中国首席数据官联盟专家组成员,翱旗创业(北京)科技有限公司首席执行官,近20年IT行业工作经验,其中10年大型外企公司(EMC、Oracle等)的管理经验,具有丰富的IT领域知识和实践经验,并以技术总监组建Oracle数据集成解决方案部。

本期特邀嘉宾中国首席数据官联盟发起人刘冬冬,就国内企业如何正确实施大数据向郑曙光先生发起提问。

刘冬冬:郑总您好,作为一个在数据领域耕耘多年的老兵,请您谈谈对中国大数据发展的看法?

郑曙光:我对中国大数据市场的观察是这样的:现在大家更多的把技术发展押宝在Hadoop上面,缺乏真正的自主的、创造性研发;国内大多的大数据公司是基于某一个特定场景、特定用户去实现基于其场景的数据分析,但在这个过程当中,数据的割裂和各自为政的局面并没有完全解决。

举例来说,我知道国内的某一家比较领先的银行,他们至少有3个不同的大数据的项目,其实这本身就是大数据的一个笑话。就一个企业来说,它所有的数据应该是合而为一的,这样能使整体的数据来发挥完整大数据的价值;但人为地把它割裂成不同的维度,其价值也就有所降低。

不过出现这些状况是有原因的:一方面,他们从技术上难以把这些数据都拿到一起,另外一方面来说,也是国内对整个大数据能发挥的作用认识不到位。

所以,中国大数据仍停留在一个相对比较初级的阶段。从两个维度上来看,我觉得都符合这个特点,第一个是从整体的数据管理角度,其实并没有把企业的所有的数据做一盘棋,统一来考虑。第二个呢,就是从业务的这个层面来讲,并没有把跨部门、跨不同职能之间的数据和业务更紧密的放在一起,做大数据的一个分析和呈现。我认为从技术和业务两个方面来说,都还比较初级,都有待进一步发展。

刘冬冬:那么在这个“初级阶段”,我们在实施大数据之前是不是还要做些准备?

郑曙光:是的,首先我想说中国大数据还在初级阶段,早在大数据产生之前,就已经种下了这个种子。欧美国家经济比较发达,它的IT建设,在大数据概念提出之前,在数据治理上就已经走了很多路。但是中国呢,在这一块基本上是一个空白。所以,对于中国国内的企业来说,我们首先要把这一部分补足,如果不能补足这一部分,大数据的一个基础是不牢固的。再比如说这个数据治理,过去我们一般会提主数据,元数据,数据质量等等一系列的内容,但是我们在几年前在建设国内的一些数据仓库、经营分析的项目时,更多的是去考虑怎么样用ETL工具把一些数据拿到一起,和用一个BI的工具,去实现一个报表的呈现。但是并没有站在数据治理的角度去分析:哪些数据与它在这个业务上的主数据不同,系统间数据的关联依存和标准是什么样的。同时企业运转的过程当中,物理真实世界不停变化时,这些数据是不是由应用及时地跟着做了一些调整和改变。如果没有,那么就意味着数据的质量,已经不能够真实反映这个物理的世界。那另外一点,元数据方面来看,首先翱旗是不太去提元数据这个名词。因为对于很多用户而言,元数据似乎离他们很远,他很难去理解它真实的价值。反过来我们可以提另外的一个说法:就是当一个政府或企业,他们想要去分析数据遇到的第一个问题是,他知道他有什么样的数据吗?如果他连自己有什么数据都不知道,他更不能知道我能用我有的数据去干些什么,去做什么样的分析。所以第一件事呢,是我们要帮助用户去摸清他自己家底,那这个家底是什么?就是我们叫数据资产,所以数据资产管理应该是在大数据的建设当中必不可少的,很关键的基础环节,那么从业务上来看,就是我们怎么样去分析和挖掘这些数据。

刘冬冬:您提到过去也有很多做数据分析的,那么和大数据时代的分析挖掘有何异同?

郑曙光:过去20年中就已经广泛运用数据仓库和经营分析的项目,我们为什么现在又提到大数据?它跟过去的经营分析又有什么不同的?其实过去的经营分析由于计算能力的一些限制,往往采用的是让计算机做人经验的一个延伸,就是我认为某种情况下,应该有什么样的数据关联?那么我需要计算机来帮我找出来,等到明确地去把这个场景找到之后,还是由我们进行判断。如果把这个例子说的更细,我就来说一个啤酒和尿布的故事。最初呢,沃尔玛做了一个数据分析,他们发现了一个情况,就是在购物小票上关联度最高的两个商品,竟然是啤酒和尿布,就是这两个商品同时出现在同一张购物小票上的概率是最大的,那是为什么呢?后来就发现了,往往是因为家里的孩子需要尿布了,年轻的父亲就被指派出来购买尿布,而这个年轻的父亲都会顺手给自己带上几罐啤酒,那么后来他们就把这两个商品摆放得更近,以便于增加这种购买组合的成功率,也就是说让更多的这种年轻的父亲随手就可以带上几罐啤酒回家。但是这一点的分析,并不是一个计算机自我发掘的过程,是人类要求它找出在购物小票上,有最强关联度的两个产品,那还有没有其他的可能的关联呢?其实我们也不知道。而在大数据时代,需要更多的是让计算机自主自觉地去发现一些我们没有发现的规律,所以,这个是需要大数据时代去完成的一些内容,而不仅仅是依靠着我们已有的经验,这是我觉得在国内我们有待于去继续发展的方向。

所以,翱旗并不跟风简单的数据分析,而是立足核心、立足基础、打造平台。我们的目标是让数据平台本身先应用上基于数据的自学习,让计算机真正简化对数据的管理过程,提供给更广泛的用户简单易用的数据平台。我们的理想是“数据驱动未来让数据唾手可得”。

刘冬冬:在您看来国内大数据应用还存在哪些挑战和机遇?

  郑曙光:我先从几年前我的一个经验来谈起。当时我在Oracle遇到了一个客户的数据场景,是非常巨量、庞大的数据。把这个现场情况反馈到美国的研发总部后,研发给出来的一个答复是:这个数据量太大了,我们从来没有遇到过。这意味着什么?这意味着中国由于人口红利,由于这个庞大的社会所带来的数据的量级、数据的复杂度其实已经是世界上最高的了,那么中国不再有任何一个成熟、先进的体系可以参照,虽然对比一些先进的发达国家在IT上的建设,我们仍然有一些路要走,有一些功课要补,但现在我们所面临的环境,已经不仅仅靠过去的经验所能满足的。我们一定要在这个基础之上,去发挥我们自己的创造力,这对中国无疑是一种极其大的挑战,因为你已经不可以去借鉴,但同时,它又是一个非常大的机遇,意味着如果我们自己能克服这一困难或挑战,那么走到全世界上,无论是哪一个国家,我们就一定能满足他数据业务需求。因为再没有哪个国家拥有如此庞大的数据量级。到那个时候,我们在大数据领域的技术一定就是全球最领先的。但要实现也不是那么容易,一是从技术这个层面,我们要处理的数据的量,是全球最大的,这个数据的复杂度或者数据的来源,也是最广泛的;二是从业务上来讲,中国也有着更复杂的一些业务,比如说春运,国人常戏称为“全球生物史上一年一度最大的一次迁徙”,这种状况在全球都是不存在的,欧美虽然也有圣诞节,但是通常来讲都不会产生像中国这样典型的一个“迁徙”过程,这是中国特色,但不仅仅是由于人口、由于经济的发展不均衡等等带来的。其实要面对这个挑战,从两个维度来说,还是可以大有可为的,翱旗怎么去看待这件事情呢?第一,首先要去深入的挖掘中国自己用户的一些需求啊,并真正的去理解这些需求,然后实现它;其次,在这个过程当中,通过现有的分布式的计算的体系,利用现在的这种Hadoop技术带给我们的一些创意,用横向可扩展的集群式的架构,把性能提升上来,让我们能够在有限的时间内,对海量数据、对超出全球其他范围所拥有的数据量的数据进行集成、进行分析、进行运算。这也是我们翱旗人的一个使命,我们的目标就是要让数据唾手可得,就是要让数据的获得并不是很复杂,不需要大量的现场的人工就能完成的事情。

 

中国首席数据官联盟/中国CDO精英俱乐部是国内首个以CDO为核心的技术型非盈利性联盟组织,遵循自愿、平等、合作的原则。其发起人为刘冬冬、鲁四海、葛涵涛。我们希望成为中国大数据产业创新与发展推动者,为实现中国大数据产业全球领先而努力。我们将一如继往的打造跨行业、跨领域的商业精英交流平台,提升CDO在企业中的地位,提升企业的数据化水平,将数据变为未来企业发展的核心驱动力并最终推动中国大数据产业整体发展水平。

标签:

责任编辑:管理员

相关人物

在线客服