大数据的前世、今生和未来

2016-09-28 08:09 来源:数据分析与大数据
浏览量: 收藏:1 分享

大数据.jpg

1 大数据的前世

  大数据没有“前世”,只有“今生”和“未来”。

2 大数据的今生

  Google每个月要处理900亿次的Web搜索,数据量高达600PB;百度拥有数千亿的网页,同时数据总量接近1 000 PB;Facebook是全球最大的在线社交网络,用户人数达12.3亿,日活跃人数达7.57亿,日均消息量达10亿条;Twitter用户数突破5亿,日活跃人数2.4亿,日均消息量2.3亿条;腾讯QQ目前拥有8亿互联网用户、4亿移动用户,数据量经压缩处理后约100PB,并且这一数据还在以日新增200TB到300TB、月增加10%的数据量不断增长。

  2013年中国产生的数据总量超过0.8ZB,是2012年中国产生的数据总量的2倍,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。

  2.1大数据的起因

  (1)数字化。由于计算机的出现,使得人类可以用数字化的“眼睛”来观测和处理整个世界,数字化意味着可以从大千世界的一切事物中汲取信息。数字化是大数据的手段。

  (2)移动化。随着智能手机、移动终端、便携设备的快速普及,推动了移动互联网的迅猛发展,使得人们可以快速、实时、便捷地产生、分享和获取数据。移动化是大数据产生的原因之一,主要是人在产生数据。

  (3)物联化。随着物联网的快速发展,世上万物皆有生命,既能被感知(传感网),又能感知“它”(物联网),还能共分享(网络化);随着物联网技术的进一步发展,感知的广度和深度都将会逐步地加大,不可避免地会产生数据的“海洋”。物联网是大数据产生的原因之二,主要是物在产生数据。

  (4)社会化。好奇、求知和交流是人类永恒的渴求,社会网络的出现满足了人们实时交流、分享信息、抒发情感、寻求朋友的愿望,因而得到了迅猛的发展,社会网络每时、每刻、每地产生数据。社会化是大数据产生的原因之三,主要是人和人、人和物的交流在产生数据。

  (5)网络化。随着网络用户的增加、带宽的增大以及新应用的不断出现,信息的产生和传播更快、更广、更深。网络化是大数据产生的原因之四,主要是传播在产生数据。

  当然产生大数据的原因还有很多,如精度的提升可能使数据量指数不断增长,原来一张照片的数据量不到1MB,现在可能超过10MB;再如视频监控的普及、多媒体应用的增多,都产生了大数据。

  总之,大数据是一种“现象”,是众多新技术和新应用产生的结果。

  2.2 大数据的特点

  大数据不仅是指其数据量大,而且还有很多特点,目前公认的至少有4个特点:体量大、形式多、时效强、价值大 。

  体量大主要指范围广、规模大、容量大,通常可以达到PB级,甚至达到EB、ZB级,其中以非结构化数据居多,占总数据量的80%~90%,其增长的速度比结构化数据还要快10~50倍。

  形式多主要指数据类型,具有异构性和多样性,很多不同形式(文本、音频、图像、视频)的数据共存,数据没有特征模式或者特征模式不明显,缺乏语法和语义,具有很强的混杂性和模糊性。

  时效强主要指时效性强,要求实时分析,希望立竿见影而非事后见效,因此需要强大的计算处理能力和及时的数据服务。

  价值大主要指知识的聚合、产生的价值大,大数据具有大量的不相关信息,价值密度相对较低,需要复杂的统计、关联、挖掘和深度分析,来对显式规律、隐式规律、未知规律、发展趋势等进行分析和预测。

  2.3大数据的作用

  对于大数据,你信与不信,它已存在;你喜不喜欢,它迅猛而来。

  对于大数据,你用它就会有用,就会产生价值;你不用它就是垃圾,而且不只是垃圾。

  (1)大数据的负面影响

  任何事物都有两面性,大数据亦如此!

  信息垃圾。大数据的规模大、冗余多、类型复杂,如果不能加以利用,它就是信息垃圾。另外还需要大量的存储资源、计算资源和人力资源来维护和处理,需要消耗大量的能源,不利于可持续发展。因此我们需要倡导健康的信息观念,不要随意产生和传播信息垃圾。

  隐私威胁。互联网已经对用户的隐私产生很大的影响,在大数据时代隐私威胁会更加严重。通过大数据可以获得一个用户更多的信息,并且通过关联分析,可以获取其行为轨迹、兴趣爱好、社会关系、买卖信息等,对用户的隐私安全造成了极大的威胁。

  数据滥用。大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次或多次利用,会产生许多不可预见的影响,这些影响会有意或无意地威胁到用户的切身利益和隐私安全。如果被用于恶意滥用,甚至会严重侵犯用户的人身和财产等安全。

  (2)大数据的正面作用

  垃圾也可变废为宝,大数据亦是如此!

  发现规律。以前人类只能“以一斑而窥全局”,经常是“瞎子摸象”,只知其一不知其二。有了大数据,我们就有了感知世界和认识世界的能力和手段,不仅通过简单的统计分析就可以发现事物的显式规律,而且通过深入的挖掘可以发现事物的隐式规律,可以做到全面、实时、准确地认识世界和感知世界。

  关联分析。一个数据可能没有意义或价值,但数据多了,不仅可以探测数据之间的因果关系(纵向,解决事出有因的问题),而且可以分析数据之间的关联关系(横向,解决相互作用的问题),通过几个维度可以更加清晰和准确地分析一个事物的全貌。

  当数据以数量级方式增长的时候,可以观察到许多似是而非的关联关系,通过大数据的关联性分析可以更准确、更快捷地获得全貌信息和潜在价值,并且不受偏见的影响。关联性分析通过探求“是什么”,而不是“为什么”,可以更好地了解世界,掌握以前无法理解的复杂技术和社会动态。

  辅助决策。通过大数据的分析,可以建立和刻画事物的行为轨迹和生命周期,继而可以辅助用户做出决策。例如,商业追踪和交易分析等报告形式的辅助决策;故障分析、异常检测等诊断形式的辅助决策;产品评测、广告投放等评估形式的辅助决策等。大数据有价值的一个很重要原因就是它能够帮助我们做出决策。

  趋势预测。通过大数据,不仅可以分析和掌握事物的发展规律,而且可以预测未来的发展趋势,进行态势感知,做到未雨绸缪。大数据是人们获得新认知、创造新价值的源泉。

  大数据正如火如荼地在业界展开应用,典型的代表就是互联网巨头:Google、Amazon、Facebook等。随着大数据的演进,不仅越来越多的互联网企业会进入大数据的产业,而且更多的传统企业也会进军大数据。

3 大数据的未来

  大数据即将引发第3次科技浪潮和技术变革,既是我们的机遇,也是面临的挑战。

  (1)“数据科学”的出现。任何事物都会由量变引发质变,大数据也是如此!大数据不断的快速膨胀,可能很快就会超出我们的认知和处理能力,需要新的科学理论,去引发新的学科——数据科学;需要新的数学理论、计算模型和处理方法,去引发多元创新。

  (2)思维理念的转变。大数据不是一个概念,而是一个思维理念,需要对传统的思维理念进行5个方面的转变。第1个转变是:在大数据时代,我们可以分析更多的数据,甚至是某个事物的全集数据,并且“样本”可以等于“总体”,因此我们可以洞察全局、整体和所有,而不是需要随机抽样和多级抽样;第2个转变是:在大数据时代,因为数据量非常庞大,我们可以不再热衷于追求精确性,而是可以适当忽略微观层面的精确性而专注于宏观层面的洞察力,偏重于用概率说话,接受混乱和不精确性,我们可能会因此打开一扇新的窗户,宽容错误可能会带来更多价值;第3个转变是:在大数据时代,寻找因果关系不再是长久以来的习惯,我们将更侧重于寻找事物之间的关联关系,这会让我们发现新的潜在价值,这正是大数据的关键;第4个转变是:大数据时代的简单算法比小数据时代的复杂算法更有效,所以我们要寻找更为有效的简单算法;第5个转变是:数据的价值从基本用途转变为潜在用途,数据的价值不会随着它的使用而减少,而是可以不断地被处理和利用,并不断地产生价值,即数据可以被无限利用,而不是一次性消费。

  (3)全面数据的掌握。大数据的核心是数据,谁拥有数据,谁就有话语权,谁就能抢占制高点。因此,一是要花大气力全面、实时、准确地获取数据,这是“本”;二是要对大数据进行科学的分析、规范、整理,洞察数据的丰富特性,这对数据的分析和利用可以起到事半功倍的效果!

  (4)潜在价值的挖掘。有了大数据,掌握了多个数据源,就可以从多个角度把握事物。更为重要的是,大数据之间存在着相互联系,通过关联性分析可以获得潜在价值,可以创造新的发现,并预测未来。大数据的精髓就是挖掘出庞大数据中一些独有的价值!

  (5)核心技术的研发。有了数据,有了需求,就要研究和提出合适的统计、分析、挖掘、关联和预测模型,设计高效的处理方法和手段,构建精细的处理流程,设计精美的可视化界面和工具,做出一个好的大数据分析系统和产品,从而发现规律、产生价值,为客户乃至世界带来新的价值增长。

4 结束语

  大数据开启了一次重大的时代转型,大数据的科学价值和社会价值主要体现在两个方面:一方面大数据可以转化为经济价值的源泉;另一方面,大数据已经开始撼动世界的各个方面。

  大数据蕴藏着巨大的宝藏,就像传统的石油、天然气、金矿等一样,就看你是否有能力挖到?能挖到多少?大数据的时代汹涌而来,我们要迎头而上,避免错失良机!


标签:

责任编辑:admin
在线客服