大数据五项相关技术与数据分析应用案例

2018-11-23 16:29 来源:火车采集器
浏览量: 收藏:0 分享

  大数据技术指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  1、Avro与Protobufç

  Avro与Protobuf均是数据序列化系统,可以提供丰富的数据结构类型,十分适合做数据存储,还可进行不同语言之间相互通信的数据交换格式,学习大数据,需掌握其具体用法。

  2、Cassandra

  Apache Cassandra是一个高性能,可扩展性和高线性可用的数据库,可以运行在服务器或云基础设施上,为关键任务数据提供完美的平台,。 Cassandra支持多个数据中心之间复制是同类产品中最好,为用户提供更低的延迟,甚至不惧怕停电。 Cassandra的数据模型提供了便利的列索引,高性能试图和强大的内置缓存。

  3、Kafka

  Kafka是一种高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现!

  4、Chukwa

  是一个开源大型分布式系统的数据采集监视系统。它是建立在Hadoop分布式文件系统(HDFS)和Map/ Reduce框架之上,并继承了Hadoop的可伸缩性和健壮性。 Chukwa还包括一个灵活而强大的工具包,用于显示,监测和分析结果,以便做出最佳地使用所收集的数据。

  5、Flume

  Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法。返回搜狐,查看更多

image.png

  石油公司壳牌通过分析数据以预测机器故障

  很少有行业能比能源行业产生更多的数据了。但多年来,石油巨头壳牌甚至不知道其在世界各地的各种设施中的零件都位于哪里;它不知道什么时候需要再进货;直到部件开始出现故障,它才知道什么时候出现了维护问题。由于机器停机每天给公司造成了数百万美元的损失,于是壳牌决定收集数据以避免这些问题。

  壳牌卓越数据科学中心的总经理Daniel Jeavons表示,壳牌基于多家供应商的软件建立了一个分析平台,运行预测模型,以预测3000多种不同的石油钻井机的部件何时会出现故障。

  其中一个名为Databricks的工具通过Apache Spark来捕获流数据。壳牌使用这个工具来更好地计划什么时候购买机器部件,保存多长时间,以及在哪里存放库存物品。

  该工具托管在微软Azure的云中,帮助壳牌将库存分析从超过48小时减少到不到45分钟,每年减少数百万美元的库存转移和重新分配成本。

  经验总结:避免机器故障需要很多工具。Jeavons表示,壳牌的平台包括了来自Databricks、Alteryx、C3、SAP和其他供应商的软件,所有的这些软件共同帮助了他的数据科学家来产生商业见解。最终,首席信息官必须正确评估这些工具,并在进行大额购买之前了解哪些才是有效的。

  ARC启用了新的数据管理工具

  数据是航空报告公司( ARC )的生命线,该公司每年结算航空公司之间价值超过880亿美元的机票交易,包括德尔塔航空公司、美国航空公司、英国航空公司、阿拉斯加航空公司以及Expedia等旅行社。航空公司付费获取ARC在这些交易中收集的数据,以了解更多的关于旅行者的目的地、旅行时间以及在此过程中每年为超过22亿次航班支付的费用的信息。

  ARC捕获数据,将其输入分析引擎,对其进行细化,并为其客户构建定制的报告。ARC 的CIO Dickie Oliver表示,该公司正从Teradata的数据仓库迁移到Snowflake的云软件中,这将帮助ARC更快地将数据产品推向市场,并提供更大的可伸缩性和性能,这得益于其在AWS上的业务。Oliver表示,Snowflake是为了将计算资源与数据存储分开而设计的,它使ARC能够为客户快速构建新的定制报告。Oliver补充说,多亏了这个项目,ARC将能够为考虑新数据形式的客户量身定制新的产品。

  经验总结:迁移到一个新的数据平台通常是令人畏惧的,不仅仅是因为技术的转变;变更管理是其中真正的麻烦所在。Oliver说,让人们“从一开始就专注于改变,并让他们经历改变过程是这个过程中最具挑战性的部分”,他补充说,他正全力培训员工,包括让他们通过认证,并引进顾问,如让Slalom来帮助我们进行变更管理。

  TD银行在数据湖方面的天赋

  TD银行的数据分析团队花了几年时间来更新数据基础设施,以满足当前和未来的需求,并创建了一个企业Hadoop数据湖。

  TD银行企业信息高级副总裁Joe DosSantos表示,我们使用了基于Cloudera的数据湖用来培养对客户的洞察力,包括从跟踪员工的流失率,到为客户提供合适的产品。

  TD 银行的一个核心关注点包括让业务分析师能够从数据湖中提取数据,可用且可操作的能力,而无需数据科学家来亲自操控。 DosSantos表示:“我们正在让人们广泛使用这些数据集。”他补充道,TD Bank还尝试使用其分析平台来检测欺诈和其他渎职行为。

  经验总结:过去几年来,TD Bank一直在重新构想其企业数据平台,筛选数十年来的客户交易和其他数据。TD银行没有过度依赖Hadoop,而是使用了Talend的软件来提取、转换原始数据并将其加载到可用于可操作商业智能的信息中。

  DosSantos解释道:“Hadoop对于理解如何从A点到B点获取数据方面并不是很好。而Talend有一个元数据管理器和一个中央存储库来跟踪数据湖中的数据移动和转换。”

  嘉吉公司正为虾农提供数据分析

  嘉吉公司(Cargill)的动物营养部门开发了一款名为iQuatic的移动数据跟踪应用,帮助养虾人降低产量的死亡率。

  嘉吉动物营养公司的CIO Tiffany说,该应用程序能够基于环境因素(如温度、pH值和营养)来预测虾池中的生物量,并与嘉吉公司的iQuatic自动喂虾系统协同工作。Snyder在8月的CIO 100研讨会上介绍了iQuatic系统。

  只要农民将应用程序中的数据保存到云中,然后访问实时的操作仪表盘,便能够直观显示池塘的性能,提供关键的测量和预测分析,帮助他们更好地管理虾健康并提高产量。以前,农民是用传统的方式——用笔和纸来收集的这些数据。

  经验总结:为了构建这个应用程序,嘉吉公司派遣了工程师和企业高管去厄瓜多尔的一个养虾场,了解农民是如何从池塘中获取数据的。“我们让农民成为了我们团队的一部分,”Snyder说。通过在敏捷、two-pizza的团队中快速工作,为在5个月内成功进行试点铺平了道路,并最终实现了产品发布。

  让数据分析在默克公司发挥作用

  全球医疗保健公司默克希望利用在ERP和核心系统中收集到的数据来进行生产执行和库存控制,以获得更多的商业见解。但是,由于它的工程师花费了60%到80%的精力去寻找、访问和获取每个项目的数据,以至于许多商业目标没有得到实现。默克公司的IT制造首席信息官Michelle D’alessandro表示:“我们没有把数据视为一种可行的、永久的、有价值的资产。我们希望建立一种文化,在这种文化中,我们可以尽量在移动和报告数据上少花时间,从而将更多的时间花在使用数据来实现有意义的业务成果上。”

  默克公司创建了MANTIS(制造和分析智能)系统,这是一个über数据仓库系统,包括了内存数据库和开源工具,可以处理在结构化和非结构化系统中的数据,包括文本、视频和社交媒体。重要的是,该系统能够允许非技术业务分析师在可视化的软件中轻松的查看数据。而数据科学家可以通过复杂的模拟和建模工具访问信息。MANTIS系统已经使公司整体IT分析项目总业务量的时间和成本降低了45%。有形的业务成果包括平均提前期减少了30%,平均库存持有成本减少了50%。

  经验总结:D'Alessandro表示,她成功的关键是在亚太地区的一家工厂中设立了一个“标杆”分析项目,默克将在那里获得最大的回报。而在那里展示了MANTIS的成功之后,它就为其他网站树立了榜样。她还学会了如何步步为营。D 'Alessandro说,她在一个早期的实验中使用了人工智能和机器学习来分析默克制造过程的成本,但她“做得过头了”。她说:“这并不是因为缺乏赞助或缺乏远见,我们只是无法让它发挥作用。

标签:

责任编辑:bozhihua
在线客服