数据与大数据的关系

2016-05-03 09:05 来源:中国兰州网
浏览量: 收藏:0 分享

  5月2日消息 大数据到底什么?是不是足够多、足够全的数据就是大数据,这样的理解对不对?其实大数据是人为造出来的一个词,无法像科学定义那样精准。今天我们说说数据与大数据的关系。

  在这个方面,存在着很大的争议,有人认为大数据不是根据数量来衡量的,而是根据数据的价值和有用性;也有人认为统计数据、系统内数据只要足够大,也是大数据,大数据不仅仅指互联网数据。确实,大数据是人为造出来的一个词,无法像科学定义那样精准。

  比较公认的是由舍恩伯格提出的4Vs,即所谓:体量足够大Volume、种类足够多Variety、速度足够快Velocity、价值足够大Value。我本人之所以不赞成这样的定义,是因为统计数据或者系统内数据也可以满足这些条件,比如像沃尔玛这样巨大的商业机构,中国政府这样庞大的政府里,其软件系统里面的数据体量足够大,种类足够多,运算速度足够快,内容足够有价值。但究竟是不是大数据呢?我认为不是。这些数据虽然足够大,但仍然不足以构成大数据,理由有三:

  1.数据足够大,但不是爆发增长的数据;

  2.数据在一个封闭的系统内运行,不能与外界打通;

  3.由于数据被有限使用,而不能对全社会产生足够的价值。

  我之所以认为凡是通过互联网产生和运行的数据就是大数据,其实是从一个时代的角度来认识大数据的。

  在前互联网时代,只能产生数据而不是大数据,因为缺乏互联网这个媒介,数据之间无法产生化学反应,数据始终如同散落

  在各地的溪流,无法形成大海,也就不可能产生汹涌澎湃的惊涛骇浪。

  我一直认为互联网的价值只有一个:链接。不要小瞧这一个词。互联网依靠这个特性,直接把事物是普遍联系的这一哲学还原成现实。数据通过链接释放了聚合能量,如同一匹脱缰的野马,一发不可收拾。

  我的第一个专业是统计学,第一份工作也是在一个五百强企业做统计。时光荏苒,二十多年过去了,人生历经反复,现在又回到数据岗位,只不过前面加了一个大字。我在做统计工作时,每个月要给国家计委报一份国民经济投入产出表。那时候的计划经济理想,由于缺乏大数据这个工具,是难以实现的。在新的时代,统计系统无论从数据内容,速度,颗粒度,体量,价值等等已经大大落后了。

  统计数据通过逐渐上报,最终汇集而成的是一个去掉了个性和微观特性的抽象数据,鲜活的经济现象被浓缩成几张报表,依靠这几张报表去治理和优化社会价值,手段是远远不够的。系统内数据需要与互联网数据结合,形成数据体,既然保留结构性数据的严谨性和逻辑性,又增加广泛性和个性,最终形成接近反映事物本身的整体画像。在大数据时代,接上互联网,就与大数据打通了。


标签:

责任编辑:admin
在线客服