未来两年内90%的数据湖都“无用”!“无用”如何变“有用” ?

2016-07-28 13:07 来源:Teradata天睿大数据分析
浏览量: 收藏:0 分享

大数据,数据湖,数据治理

  Gartner预测到2018年,90%现用的数据湖都会沦为无用。“无用”这个词应该引起你的重视,这比“项目失败”更加糟糕,这意味着企业没有达到理想的ROI,意味着数据湖全然不具有价值。

  在我看来,数据湖“获此殊荣”的原因有两点。首先,许多企业评价数据湖架构的指标非常糟糕:一些企业甚至任性而错误地把数据湖的大小作为成功的标准,把“我的数据湖比你的大”当做一项殊荣,在行业会议和硅谷聚会上吹嘘;很多企业认为数据湖的大小能够代表成功,以为这显示着企业有能力无限制地存储所有类型的数据。而令人不安的现实是,数据湖的大小并不能反映其价值,却只能代表它的成本。

  而另一个更深层次的原因则需要花费更多努力去解决。其实,大多数据湖项目的管理根本不存在。一家世界500强公司的CTO曾经告诉我“我们非常喜欢Hadoop数据湖,因为它能永久地保存我们所有类型的数据,每TB的成本还很低。但同时我也很讨厌Hadoop数据湖,因为只有把数据导入的那个人才能把数据导出来。”实际上,这并非Hadoop技术的缺陷之处,反而反映出数据湖部署项目中元数据管理原则的缺失。

  没有好的数据治理和元数据管理,要在企业内实现价值就非常困难。数据在数据湖内的增殖将不可避免地带来混乱(多项证据表明)、浪费投资(提高存储和管理成本)。如果数据资产的来源无法记录,数据科学家就无法有效地获取分析成果、进行可重复的数据实验。

  数据探索的过程有三个步骤。首先是要向数据湖中填入内容。整个行业在大规模数据获取和存储方面都做得比较好,掌握了点击流数据、APP交互数据以及描绘任何事物的微型传感器数据的获取。稍微跳过一点,最后一步才是进行分析。最近大家对数据利用、数据科学、深度学习、数据分析的热情很高,数据科学家也应声被哈佛商业评论的作者Tom Davenport及D.J. Patil评为“21世纪最性感的工作”。

  而在数据获取和分析之间的关键步骤却常常被忽略掉,它就是数据监护;它是大数据的管家,它并不性感、并不被人歌颂、也就常常完成得很差。

  很多人向数据湖添加数据之前都没有描述那些数据,没有说明数据的来源、数据转化的方式。这是很严重的数据监护问题,不是一个可以依靠技术解决的问题,而是数据治理的失败,因为我们无法持续收集那些用于描述数据的数据——元数据。

  也许元数据并不性感,但要用好数据湖、获取更强的ROI,它却是必不可少的。很多领域的科学研究都为数据科学家留下了很好的模型,例如化学、天文、物理等;就好像如果你今天要发表一篇论文,就必须要把基础数据集以及数据集的来源都放在论文里,让其他研究这个领域的人理解你的研究成果是怎么来的;换言之,也就是更清楚地知道你用了哪些数据、数据从何而来、数据如何收集、结果如何产生,这样才能方便后人进行重复验证试验。

  数据监护是数据湖项目中最常被遗漏的部分。数据湖不再只是企业内部业务流程结果的数据集,而在慢慢进化成为一种企业级的基础设施;数据湖中包含了快速生成的社交媒体、传感器、分布式和外部来源数据。我们应该像一个真正的“科学家”一样,谨遵要求,记录数据的来源、数据转化的方式、数据何时被何人导入数据湖中等一系列的信息。这就是能否获得可控、可复制、可靠的数据科学成果的关键所在。从现在起,关注这个实现数据湖价值的关键步骤吧!

标签:

责任编辑:admin
在线客服