大数据未来的前景和潜在的危险

2016-04-11 10:04 来源:数据观
浏览量: 收藏:0 分享

  很荣幸我可以与Cloudera公司的联合创始人之一迈克?奥尔森先生对话,一起来探索大数据的未来。

  Cloudera公司创建于2008年,那时大数据一词还鲜为人知,但是作为这个领域的推动力它依然坚持着建立自己的公司。它不仅提供公共资源技术,并且这个史无前例的技术能够支持现如今最苛求的分析项目。同时也大量投资于发展新的工具和应用软件,它打开了多项技术的大门,例如机器学习,实时分析和提供给比以往更大的潜在客户群的非结构化数据的有效应用。

  离开欧拉克公司后,奥尔森在与雅虎,谷歌和脸书的前工程师们合作前,一直致力于开发公开资源数据库的软件。

  2009年,他们的公司——Cloudera,成为了hadoop的第一家供应商,帮助在工业领域扩增使用大数据的用户。Hadoop提供了一个大规模分散式存储和基础技术的平价平台,例如mapreduce,也就是今天我们称之为大数据的一项不可少的项目。

  奥尔森告诉我“2008年我们刚开始做大数据时,并没有人谈论大数据,那时为数不多知道hadoop的人,仅是那些工作于Facebook或Yahoo的Java工程师们。

  所以,最开始时,我们必须让自己成为超级福音。为什么数据那么重要?为什么我们这么需要它?为什么这个平台是一个正确的途径?

  把时间快进三四年,情况便不再如那般了,每一位数据分析师都在宣称大数据将成为一个重新定义贸易业务的工具,Hadoop这个陌生的词汇在科技工业领域已经被大家人口相传。

  然而,大数据在根本上始终存在着两个较为复杂的问题,其一为HDFS文件系统,这个系统允许庞大的数据通过廉价且现成的存储组件来传播。另者为MapReduce,这一编程模型使得数据被重新恢复和加工。

  奥尔森告诉我,“你可以在某个地方应用这种数据,你也可以通过和一些并不常用的工具获得,比如MapReduce,但你必须自己去编写这种工具。”

  “近几年,信息像爆炸了一样,不仅是这个平台上,如我们一样的供应商,还是这个丰富的生态系统里其他不断创新的公司,都在不断的提升价值且相互竞争着,为了给消费者提供真正有价值的东西。”

  毫无疑问,公共资源更长远的发展,便是这所谓的生态系统,如Cloudera公司创造的Hbase、Spark和Impala,这些为如今我们所看到的大数据提供了很多的机会。大数据不再只用于数据和计算机科学中,在医学领域被应用于创造新的治疗方法,在金融服务中避免了不正当的交易,在人道主义组织中用于处理战争和自然灾害造成的损失。


标签:

责任编辑:admin
在线客服