一篇文章看懂:大数据框架、大数据采集平台、数据产品创建

2016-02-19 14:02 来源:GrowingIO
浏览量: 收藏:0 分享

一、数据从哪里来、应去服务谁,看完这个才知道!

  对于大数据,业界有各种各样的解读,网上、微信中也流传有很多“一张图看懂大数据”的文章,但这些文章大多数都是从技术角度进行解析的。更重要的是,很多“一张图”看了之后就是一张密密麻麻充满各种Logo的图,仍然没有将大数据说清楚道明白。

  长期在LinkedIn担任数据科学家、有着多年大数据实践的张溪梦给出了他自己多年经验所总结出来的一套大数据框架。张溪梦说,在这种大数据结构里,贯穿始末的不再是技术和业务,而是客户。

  客户是大数据的来源也是大数据最终要服务的终点。在这套框架中,数据分析的基本框架向下延伸,最基础从Customers(用户)开始,也在用户结束。

  1. 大数据框架

 

  2.统一的大数据平台

  “现在最缺乏的,是统一的大数据采集平台”

  张溪梦说,“大数据、大数据,最重要的就是数据。但数据在哪里呢?这是大数据框架要搞清楚的第一个问题。”因此,张溪梦认为,在一个企业的大数据框架中,最重要的部分是大数据的原始数据采集层。

  这基本包括三个层次,最外层是用户,其次是公司运营中各种会产生数据的业务应用系统(如ERP、CRM、SCM、OA等各种企业应用软件)、网站、APP、社交网络、电商平台等,在此之上是各种数据的采集平台。

  有人说,大数据是石油,它深埋在地下。企业的大数据采集就相当于发现原油。它在企业中的位置非常重要,它是我们进行大数据分析、洞察的基础。它就是企业的数据资产!

  张溪梦说,用户是企业大数据最重要的来源。围绕用户的一切数据是企业最为重要的数据。

  现在所谓“互联网+”,其本质就是要实现与用户的连接。其实,如何才算与用户实现了连接呢?将用户相关的数据将能收集上来,并实现了管理,便是实现连接的重要表现之一。

  因此,数据收集的重要方面就是用户相关数据的收集。当然,除了用户数据,与企业运营、管理相关的各种数据,政府、电商平台、社交网络等各种第三方的数据也是非常重要的大数据来源。

  不管你信不信,数据就在那儿;不管你用不用,数据就在那儿!张溪梦认为,大数据已布满在企业的各个地方各个角落,“我们现在最缺乏的,不是数据,是一个统一的数据采集平台(Data Collection).

  3.从ETL到ELT

  在数据采集上来之后,接下来便要对海量的数据进行所谓的抽取、转换、加载,即ETL。

  “传统的数据分析认为,数据收集之后是ETL,但现在变成了ELT,未来有可能只有EL没有T,甚至到最后全部将EL结合到一起,不再有功能性的划分。”张溪梦说,这是他们在LinkedIn经过多年实践与探索之后给出的新思考。

  为什么会有这种变化呢?

  张溪梦介绍说,这主要是因为以前的存储、计算、传输成本都很高,数据处理要用时间来换取空间。

  因此,当时的重点技术是要将原来非结构化的数据进行结构化转化,把数据压缩变小、节约存储空间,从而形成所谓的ETL模式。但很显然,这种模式存在一个无法避免的问题,即ETL过程是需要花费很多时间的。互联网时代是快鱼吃慢鱼的时代,企业需要实时了解各种数据,需要实时进行响应。费时的ETL模式显然完全不能适应当前的时代潮流。

  因此,当时LinkedIn的数据科学家们提出,为了实现实时响应,可将加载和转化的顺序对调,即变成ELT。

  这能大幅节约数据处理时间。据张溪梦介绍,三四年前,美国已经完全做到ELT了,中国目前才刚刚开始进入这种转变。更进一步,张溪梦认为,变成ELT之后依然有可提升空间,即不用转换,只有EL,甚至EL都将合二为一,即最终实现功能整合。

  在ELT之后,便是我们经常见的DW(数据仓库)了,包括各种EDW和ODS等。大数据要在这儿完成结构化的存储、处理和分析引擎等服务。

  4. 是先BI后分析,还是先分析后BI?

  数据仓库之上,便到了我们经常所说的BI了。

  张溪梦说,BI其实包括两个层次,即Analysis(分析)和BI,其中分析主要为对数据进行高维度分析,BI则主要提供数据透视和展现。“在大数据时代,这两个层次也有一个巨大的变化。是先BI再分析,还是先分析再BI呢?这是一个问题。”

  以往的做法基本上是先BI,而后在其上进行Analysis(分析)。

  目前国内绝大部分企业就是这么做的。大部分企业把BI与数据仓库中存储的数据相结合,用于报表分析、报表制作等。更重要的是,这类工作一般交由IT部门负责,使得BI变成了技术性工作。因此,现在很多企业中有大量的IT研发人员在开发报表。这种做法带来了“先BI再分析”的最大问题,即用数据的人不是做数据的人,做数据的人不是用数据的人。

  张溪梦说,很多人认为报表就是分析结果,但其实不是这样的。报表越多未必就是价值越多。IT人员优势在于技术而非业务,当报表交由他们负责时,他们会侧重于做出越来越多的报表,而不管这些有什么用、谁来用。

  事实上,由于报表和分析的人不懂业务,很多数据在形成报表甚至做完分析之后,却并不能满足业务人员的需求,甚至有的数据经过层层审核提交到决策者之后发现是错的!然后需要再次打回进行返工,于是乎整个的分析周期都被拖慢。

  现在的先进做法是,将BI与分析进行对调,即先分析再BI,并且分析工作要由熟悉业务的数据科学家来承担。

  张溪梦认为,把数据仓库的数据和分析直接结合,通过相关的分析技术和工具,直接挑选出具有商业价值的数据,之后通过BI迅速将其商业价值扩大化。这带来的好处是,用数据的人在分析数据,并且迅速地让全公司的相关人员都能够实时看到分析结果,及时进行决策。

  做了这种对调之后,报表的制作量将大大减少。这样,IT人员可以不用花费大量时间研发报表,可以大大提高数据分析部门工作效率,满足当今数据分析需求的激增。

  5. “输出洞察、输出决策、输出价值”

  在分析、BI之后,便到了如何将数据价值发挥出来的环节。张溪梦认为,这主要包括DM(数据挖掘)、AI(人工智能)、洞察、决策、行动、价值等几个阶段。

  Data Mining、AI是通过高超的技术手段,实现自动化的机器学习,从而达到在大数据分析处理之后,能够自动化地给企业的管理者、相关员工输出具有洞察力的发现,并且根据这些洞察和发现给出决策建议、行动建议,最终帮助企业实现价值,满足客户需求。

  张溪梦认为,大数据框架,最终应该着眼于帮助企业为自己的客户提供价值。不能仅局限于技术本身,只有很好地实现了洞察、决策、行动,最终才能真正实现大数据的价值,达到通过大数据提升公司效率和业务增长的目的。

  6. “底层频次高价值低,顶层频次低价值高”

  从客户、业务系统、数据采集、数据仓库、分析、BI、DM、AI、洞察、决策、行为、价值,再最终回到客户,这构成了张溪梦眼中的不一样的大数据框架。

  张溪梦说,他在实践中还发现,在这个大数据分析框架中,越贴近底层占用时间越多,而框架顶端的决策耗时却很短;从价值频率来讲,顶端低频次,高价值,底层是高频次,低价值。

  因此,大数据技术的一个重要发展方向是,效率低的部分实现全方位自动化,并且实现一站式的大数据服务!

  这正是张溪梦归国创办GrowingIO的重要方向。张溪梦希望,GrowingIO能成为他在大数据领域创新的载体,将国外大数据领域的最新理念、最新技术引入到中国。

二、连采集都不会,怎能开始数据应用第一步!?

  在详细介绍了不一样的大数据框架图之后,张溪梦和我们详细探讨了大数据采集平台。我们讨论所形成的一个重要观点是:在数字经济时代,未来每个企业都是数字企业。数字企业都必须有自己的大数据处理体系。而今天我们介绍的,便是张溪梦眼中每个企业大数据处理体系中最基础和最根本的部分——大数据采集平台。

  1. 这才是企业大数据体系的核心

  根据张溪梦介绍的不一样的大数据框架,我们总体上可以将企业大数据的体系分成“3+1”,即采集与存储平台、分析与挖掘平台、洞察与决策平台,以及覆盖全局的数据安全平台。

  采集与存储平台的主要职责是对企业的相关大数据进行收集,并将采集到的数据存储起来。这是企业的数据资产。它也是未来数字企业的最重要资产之一。

  分析与挖掘平台的主要职责是对企业采集到的大数据进行专门的分析、BI等,以及在此基础上进一步的数据挖掘、人工智能等。

  洞察与决策平台的主要职责是利用大数据分析的结果产生对商业的洞察、决策,以及与之对应的行动等。

  数据安全平台的主要职责是负责确保数据的安全性,保证企业的数据资产不受到损害,例如数据不丢失、不损坏、不被窃、不被改等。

  一般而言,企业可以不用自己拥有专门的大数据分析与挖掘平台,可以租用第三方的专业工具;但企业必须自己要有相应的商业洞察、决策与行动能力;同时,企业也必须拥有自己的数据,必须有数据的所有权。

  也即是说,企业必须有数据采集与存储平台,这样才能拥有自己的大数据资产。这是未来数字企业的核心!如果数据不在自己手中,或者自己没有数据,则一切的所谓大数据都将变成空中楼阁。在虚拟的数字世界,同样存在“巧妇难为无米之炊”啊!

  大数据的三个层次

  资料来源:海比研究,2016

  2. 大数据的采集平台也有三个层次

  在未来的数字企业中,大数据采集与存储平台将占据非常重要的位置。将来自各种数据源的原始大数据采集回来、存储起来,这便相当于企业的大数据原油。如果一个国家没有原油,就只有全部采用进口了。这就相当于把命脉交给了别人、被别人把控。

  一般而言,大数据采集与存储平台一般也可以分为三个层次,即数据采集层、预处理层和存储层。同时,大数据采集平台还需要一个覆盖全局的数据安全体系。

  采集层负责采集企业各种来源的大数据;预处理层负责对采集回来的数据进行一些规范化的处理;存储层则是将预处理后的大数据进行存储,将企业大数据资产用一种方式保存起来。数据安全体系和上文所提到的数据安全平台一样。

  值得注意的是,当存储技术足够好、存储设备成本足够低容量足够大时,或许就可以不用预处理层了。

  大数据采集和处理平台框架

  资料来源:海比研究,2016

  3. 大数据采集技术难题不少

  张溪梦认为,大数据时代的数据采集和以前会很不一样。

  大数据采集是一个很复杂的工程。

  其复杂性主要有三点,第一,数据源非常复杂;第二,实时化比较难;第三,存储和管理、保证安全比较难。有大数据专家认为,这些复杂性使大数据采集有四类典型技术难题。

  第一,各种智能设备中的运行数据是企业大数据的一个重要来源。在这种大数据采集中,很重要的一部分是大数据的智能感知,它能实现大数据源的智能识别、感知、信号转换、适配、传输、载入等技术。尤其是智能设备的数据中,还会涉及结构化、半结构化、非结构化等各种数据,这与以前的纯粹结构化数据采集会有巨大不同,也因此而存在许多需要克服的技术难题。在智能制造、可穿戴设备等产业数字化、物联网越来越发普及的今天,智能设备的数据采集变得非常重要。

  第二,社交网络、电商或官方网站、APP应用是企业大数据的另一个重要来源。在这种大数据采集中,高速高可靠数据爬取或采集技术、高速大数据预处理技术、视频语音等流数据的实时采集技术是当前需要重点突破的技术方向。同时,采用哪种方法采集,例如埋点或无埋点方法,也是当前非常重要的突破方向。

  第三,存储也将越来越成为大数据的关键问题。随着一切产品与物质的智能化、数字化,数据量正以前所未有的速度迅猛扩大。如果没有一套成熟的数据存储和管理方案,我们也终究无法利用这些巨量的数据。大数据专家们一致认为,大数据的索引技术,以及大数据的移动、备份、复制等技术是当前技术难点。

  第四,隐私与安全是大数据采集中面临的另一道难关。对于隐私,目前采集的界限就很难界定。一些数据一旦采集了便涉及到隐私,不采集又会损失很多重要信息;数据如何利用算是侵犯隐私,怎样才算是合法利用……这些问题,看上去是属于道德或法律范畴,但其实也是和技术实现手段息息相关。另外,如何保证数据不受损、不被修改、不被偷窥、不被偷窃,则是当前大数据采集所要重点解决的安全问题。这会涉及隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

  4. 数据采集制度规范的重要性

  值得注意的,大数据的采集还有一件事情非常重要,即整个企业要有一套完整、规范的数据管理体系。这个数据管理体系包括数据采集流程,以及数据管理制度。

  张溪梦说,国内大数据的技术服务公司正在飞速成长,其产品技术和美国的差距也正在迅速缩小。但对于数据管理体系,国内很多企业在这方面的理念、水平及完整性都和美国企业有不少差距。这是一个软实力,企业只有在这方面也强大了,才能真正将大数据的价值准确、持续地发挥出来。

三、如何创建神一样的数据产品?

  1、神一样的大数据产品

  这是当我和坐在眼前的真正的前LinkedIn数据科学家张溪梦一起交流的时候,我自己的深切感受。我惊人地发现我自己更加喜欢数据科学家的魅力!我的心告诉我,我有这个直觉,有从一些看似无关却可能发现新大陆的数据敏感性!在与他交流的过程中,我完全能感受到,数据产品非常“神”,而数据科学家、数据产品经理要更神。

  张溪梦举了一个他们在LinkedIn工作时的大数据分析与产品例子。这很让我脑洞大开,也不由对此有种“飞蛾扑火”般的吸引力与特别想试一下的冲动。

  据他介绍,他们当时做了一个非常有趣的分析,他们用三个非常简单的数据构建了一个评估公司价值的分析模型,即这个公司的每名员工是从哪个公司进入的、哪年进入的、哪年离开的。

  他们用这个大数据分析模型对美国的一些知名IT公司的价值进行评估排名,结果发现是惊人的准确!他说,当时从他们这个神一样的数据模型分析出来的结论是,LinkedIn排名非常靠前。

  这在几年前的发展状况来看,有点不太符合当时人们的认知。但经过一段时间的发展,现在这个排名看起来完全正确。

  我惊讶的不是结论的预见性,而是该数据分析模型的构建。居然想到从这个视角、从这样三个简单的数据,便反映出一个看似很难做到的预测!我喜欢这个!

  其实,这两天还有一个数据产品让所有人都很Happy,也很感慨:2016微信公开课PRO版。这就是一个神一样的数据产品!只要点击链接,它就能给你回放你在微信这个星球里的运行轨迹。

  我自己用了一下,它告诉我:我是在2012年11月7日注册微信,我的第一个微信好友是纷享销客罗旭。多么神奇,又多么温暖!实际上,另一个互联网巨头阿里巴巴以前也曾推出过类似的神来之笔——淘宝时光机。

  说不准,微信的这个产品也受到过淘宝时光机的启发呢。(不过,从数据产品经理的角度看,淘宝时光机显然是更胜一筹。时光机,太有感觉了!)

  2、如何规划数据产品

  “数据产品应该怎么规划?”我问张溪梦。

  有一些国内做得较好的数据产品经理对此做了一些介绍。例如,可以从数据产品的类型进行规划,如要有数据型产品、洞察型产品、决策型产品、智能型产品等;也可以按使用对象进行规划,如内部使用的数据产品、外部使用的数据产品;类似的规划思路还有很多。

  张溪梦认为,这些都是不错的规划方法。不过,除了规划,“好的数据产品也是创意、是想象力、是灵光乍现。”别人看似平淡、看似发疯的数据,但在神一样的数据科学家、数据产品经理的眼里,就可能会产生一个具有极大意义的数据产品。

  在大数据的深海世界里,有着无穷无尽的可能性与创造力。生辰八字、梅花易数、易经、奇门遁甲、看相算命、风水,这些流传几千年、看似毫无科学道理的迷信手段,如果用大数据的眼光来看,他们其实也是一种数据产品。从这个角度来看,绵延五千年的中华民族是非常适合设计大数据产品的。天生就有这样的基因!

  在张溪梦看来,数据产品最重要的要素有两个,第一是创意,第二是数据分析算法和分析模型。

  因此,张溪梦认为,规划数据产品,最重要的是找到优秀的充满创意的人才,规划和搭建好整个大数据分析的团队。其次,便是将基础数据及相关分析工具准备好;最后,要将交互界面(UI)设计好。只要有这三点,就不愁开发不出让人眼前一亮的数据产品!

  3、如何创建数据公司

  最后,我还想说一个非常有意思的观点:未来会有海量的数据产品诞生,会有海量的数据产品创业公司!

  自己没有数据能做数据产品吗?自己没有数据分析工具能做数据产品吗?我的结论都是肯定的:能!你唯一要有的,就是拥有创意拥有想象力!这是最适合个人创业的全新领域!

  其实,你没有大数据吗?错!

  你拥有众多的大数据,有很多免费或低成本的大数据可以供我们每一个人使用,例如政府部门的相关数据、各大电商社交网络的海量数据等。所以,我们每个人都有大数据。

  你没有数据分析工具吗?错!

  你拥有众多免费或非常便宜的大数据分析和洞察工具。市场上这样的数据分析提供商非常多,你可以低成本地随意使用。

  有了数据、有了工具,再加上你的创意你的想象力,你就能设计出让人意想不到的数据产品!一个好的数据产品,可能会给社会带来变革带来进步,也可能会成就你的一生!


标签:

责任编辑:admin
在线客服