避免大数据分析失败的6种方法

2017-09-07 10:09 来源:企业网D1Net
浏览量: 收藏:0 分享

  遵照以下6种最佳方法,可以打破竞争,创造新的收入来源,更好地为客户服务。

  大数据和分析方案可以改变游戏规则,为您提供洞察力,帮助您打破竞争,创造新的收入来源,更好地为客户服务。

  大数据和分析方案也可能产生巨大的错误,导致浪费大量资金和时间,更不必说会流失一些有才华的技术专家,他们已经厌倦了在这种管理不善的环境中工作,令他们沮丧。

  如何避免大数据分析失败呢?从基本的业务管理角度来看,有一些最佳做法是显而易见的:一定要有公司最高层管理人员的支持,确保所需的全部技术投资获得足够的资金,并引入具有专业知识的人才和/或提供良好的培训。如果你没有先解决这些基础问题,那么没有什么比这更重要了。

  假设您已经解决了这些基础问题,大数据分析的成功与失败之间的区别在于如何处理大数据分析的技术问题和挑战。您可以做以下几点来确保大数据分析的成功。

  1. 慎重选择您的大数据分析工具

  许多技术上的失败源于公司购买和实施的产品,这些产品经过实践证明是非常糟糕的,完全不适合公司想要实现的目标。任何供应商都会用“大数据”或“高级分析方法”这些词来描述他们的产品,试图利用这些术语来大肆宣传。

  但产品的质量和效率以及侧重点,都有很大的不同。因此,即使你选择了一种技术上很强的产品,但它可能不是你真正需要的产品。

  几乎所有大数据分析工具都需要具有的一些基本功能,例如数据转换和存储架构(如Hadoop和Apache Spark)。但是,在大数据分析领域也有多个细分领域,所以您必须为您的技术战略实际涉及的这些细分领域购买产品。这些细分领域包括流程挖掘、预测分析、实时解决方案、人工智能和商业智能控制面板。

  在决定购买任何大数据分析产品或存储平台之前,您需要先了解真正的业务需求和问题,然后选择那些能有效解决这些具体问题的产品。

  例如,由于编译庞大的数据集很复杂,您会选择认知大数据产品,例如采用人工智能分析方法来分析非结构化数据。但是,您不会将认知工具用于分析结构化和标准化数据,因此您可以选择众多分析产品中的一个来实施,以更合理的价格产生实时高质量的洞察力,电信公司(沃达丰)大数据的全球流程负责人,来自以色列的埃斯波西托(Exposito)说道。

  埃斯波西托说,在为您的生产环境选择产品之前,至少要使用两种产品来运行验证其设计概念,这是明智的。该产品还应该能够与您的企业相关平台进行交互。

  每个大数据分析工具都需要在后端系统中开发数据模型。这是项目最重要的部分。因此,您需要确保系统集成商和业务主题专家能够携手合作。花些时间,第一次就把该项工作做好。

  一定要记住,这很重要,正确的数据应该始终可以使用并转换为商业语言,因此用户会完全理解输出的结果,从而可以使用它来寻找商机或进行流程改善。

  2.确保工具易于使用

  大数据和高级分析方法很复杂,但是商业用户用于访问和理解数据的产品则不需要很复杂。

  为商业分析团队提供简单有效的工具,用于数据发现以及分析和使数据可视化。

  莎伦·格拉芙(Sharon Graves)说,对于域名注册商GoDaddy来说,找到适合的组合工具并不容易,该公司使用商业智能工具—evangelist进行企业数据分析。该工具必须可以方便快速地进行可视化,而且可以进行深入数据分析。GoDaddy公司能够找到一些产品,可以让商业用户轻松获取适当的数据,然后自行生成可视化数据。这样就可以使分析团队解放出来,进行更高级的分析工作。

  最重要的是,不要向非技术性商业用户提供程序员级别的工具。他们会由此变得沮丧,可能会使用以前的工具,而这些工具是无法胜任工作要求的(否则,你不会有大数据分析项目)。

  3.使项目和数据与实际业务需求吻合

  大数据分析工作可能失败的另一个原因是分析工作最终用来搜索并不存在的问题。信息服务供应商益博睿(Experian)的全球数据实验室(Global Data Labs)首席科学家Shanji Xiong说,这就是为什么你必须将想解决的商业难题或需求建立在正确的分析问题上。

  关键是在项目的初期让具有很强数据分析背景的主题专家与数据科学家合作来界定问题。

  以下是益博睿公司的大数据分析方案的一个例子。当制定分析解决方案来打击身份欺诈时,所面临的挑战可能是评估各项个人身份信息(PII)是否合法,例如姓名、地址和社会保险号码等。或者面临的另一个挑战可能是当一个客户使用一组身份信息申请贷款,评估该客户是否是那些身份信息的合法所有者。或者这两种挑战可能同时存在。

  第一个挑战是“伪造身份”问题,这需要建立一个分析模型来评估在客户或个人身份信息级别开发的伪造身份的风险,Xiong说道。第二个挑战是申请欺诈问题,欺诈风险评估分数需要在应用程序层面开发出来。益博睿公司不得不将这些问题理解为不同的问题,尽管这些问题可能在最初被看作是同一个问题,只是以不同方式陈述,然后创建正确的模型,进行分析来解决这些问题。

  当一组个人身份信息提交给两家金融机构来申请贷款时,通常是返回两个相同的综合风险分数,但通常这不是申请欺诈评分的必要特征,Xiong说道。

  正确的算法必须应用于正确的数据,以获取商业智能并进行准确的预测。在建模过程中收集和包含相关数据集几乎总是比微调机器学习算法更重要,因此数据工作应该被视为首要任务。

  4.建立一个数据湖,不要吝啬带宽

  正如大数据的含义,其涉及海量的数据。在过去,很少有组织可以存储这么多的数据,更不用说来整理和分析数据了。但当今,高性能存储技术和大规模并行处理在云端和通过组织内部系统来部署得到广泛使用。

  但是,存储本身还是不够的。您需要一种方法来处理不同类型的数据,将这些数据输入给大数据分析工具。这就是Apache Hadoop的卓越功能,它允许对海量的不同类型的数据集进行存储和映射。这些存储库通常被称为数据湖。一个真正的湖泊通常是由多条溪流汇聚形成,它包含许多种植物、鱼类和其他动物。而一个数据湖通常由多个数据源提供数据,并且包含许多类型的数据。

  但数据湖不应该是数据的垃圾场。亚利桑那州立大学研究计算主管Jay Etchings说,您需要考虑如何聚合数据,以有意义的方式扩展属性。数据可能是不同的,但是如何使用可靠的数据架构来利用MapReduce和Apache Spark等工具对数据进行转换用于分析。

  创建一个数据湖,在数据湖中进行数据获取,数据索引和数据规范化,这些都是大数据策略的精心规划的组件。Etchings表示,如果没有清晰明确的蓝图,大多数数据密集型方案将注定失败。

  同样,拥有足够的带宽至关重要,否则数据将不会从各种来源汇聚到数据湖中,并且商业用户拥有足够的带宽是非常有益的。Etchings说,为了实现拥有海量数据资源的承诺,不仅需要配备可实现每秒读取数百万次(IOPS)的快速磁盘,而且还需要配备可以在数据生成时轻松访问数据的互连节点和处理引擎。

  从社交媒体趋势到流量路由,速度对于实时分析尤其重要。所以在最快速的互联网络中创建你的数据湖。

  5.在大数据的各个方面规划安全措施

  计算基础设施组件的高度异质性大大增加了组织机构从数据中获取洞察力的能力。但是有一个缺点:Etchings说,系统的管理和安全性变得更加复杂。伴随着海量的数据和多数大数据分析系统上运行的任务日益重要,在保护系统和数据方面未能采取足够的预防措施,这在很大程度上是在自找麻烦。

  公司收集、存储、分析和共享的大部分数据都是客户信息,其中一些是个人身份信息和可识别的信息。如果这些数据落入不法分子的手中,结果是可预测的:法律诉讼导致金钱损失和可能引发的监管处罚,引起品牌和声誉受损,以及客户的不满。

  您的安全措施应包括部署基本的企业工具:尽可能实行数据加密,身份和访问管理以及网络安全。但是,您的安全措施还应包括策略执行以及有关正确访问和使用数据的培训。

  6.把数据管理和质量列为头等大事

  确保良好的数据管理和质量应该是所有大数据分析项目的特征,否则失败的可能性就会更大。

  您需要对其进行控制,以确保数据及时更新、并能准确且及时地传送。作为GoDaddy公司大数据方案的一部分,当数据更新失败或运行迟缓时,该公司预警机制会通知管理员。此外,GoDaddy公司已经开始对关键指标进行了数据质量检查,当这些指标不符合预期时会发出警报。

  确保数据质量和管理的重要组成部分是雇用熟练的数据管理专业人员,包括数据管理主管或其他高管来监督这些领域。鉴于这些举措的战略重要性,企业对数据管理、使用、治理和策略的数据所有权迫切需要。

标签:

责任编辑:liudan
在线客服