大数据领域的7个技术挑战

2018-12-14 11:24 来源:IT常青树
浏览量: 收藏:0 分享

  导读:大数据挖掘领域提供了许多有吸引力的增长机会。然而,研究人员和专业人员在探索大数据集以及从这些信息矿山中提取价值和知识时面临着一些挑战。不同层面的困难包括:数据捕获,存储,搜索,共享,分析,管理和可视化。实际上,虽然大数据的规模呈指数级增长,但目前处理和探索大数据集的技术能力仅在相对较低的数据级别,即数字和数据的zettabytes量级。在本文中,我们将更详细地讨论一些尚未开展研究的技术问题。

  大数据管理

  数据科学家在处理大数据时面临许多挑战。一个挑战是如何以更少的收集,整合和存储硬件和软件要求,巨大数据集从分布式源生成。另一个挑战是大数据管理。有效管理大数据至关重要,以便于提取可靠的洞察力并优化费用。确实,好数据管理是大数据分析的基础。大数据管理意味着清理数据以确保可靠性,汇总数据来自不同的来源并编码数据以确保安全和隐私。这也意味着要确保有效率的大数据存储和到多个分布式端点基于角色的访问。换句话说,大数据管理的目标是确保易于访问,可管理,正确存储和保护的可靠数据。

  大数据清理

  这五个步骤(清理,聚合,编码,存储和访问)并不是新的,并且在这种情况下是已知的传统数据管理。大数据面临的挑战是如何管理大数据性质的复杂性(速度,数量和种类)并将其在混合了应用程序的分布式环境里进行处理。实际上,为了获得可靠的分析结果,必须在使用资源之前验证源和数据质量的可靠性。但是,数据源可能包含噪声,错误或不完整的数据。挑战在于如何清理如此庞大的数据集以及如何确定哪些数据可靠,哪些数据有用。

  大数据聚合

  另一个挑战是同步外部数据源和分布式大数据平台(包括应用程序,存储库,传感器,网络等)与组织的内部基础设施。大多数时候,仅仅分析组织内部产生的数据是不够的。为了提取有价值的见解和知识,重要的是要更进一步并汇聚内部数据和外部数据源。外部数据可能包括第三方来源,关于市场波动的信息,天气预报和交通状况,来自社交网络的数据,客户评论和公民反馈。例如,这可以帮助最大程度优化用于分析的预测模型。

  不平衡的系统容量

  一个重要问题与此有关计算机架构和容量。实际上,众所周知,按照摩尔定律,CPU性能每18个月性能增加一倍, 磁盘驱动器性能也是以同样的速度翻倍。但是,I/O操作不遵循相同的性能模式。因此,这种不平衡系统能力可能会减慢访问数据并影响大数据应用程序的性能和可扩展性。从另一个角度来看,我们可以注意到网络上的各种设备容量(例如,传感器,磁盘,存储器)。这可能会减慢系统性能。

  不平衡的大数据

  另一个挑战是对不平衡数据集进行分类。这个问题在过去几年中引起了很多关注。事实上,真实世界应用程序可能会生成具有不同分布的类。第一类类型的实体数量可以忽略不计(称为少数类或正类)。第二类具有大量实例(称为多数或负类)。经典学习技巧不适应不平衡的数据集。这是因为模型构建基于全局搜索测量而不考虑实例的数量。实际上,通用规则通常是特权而不是特定规则,因此在模型构建过程中忽略了少数群体。因此,标准学习技术不考虑属于不同类别的样本数量之间的差异。但是,代表性不足的类别可能构成识别的重要案例。

  大数据分析

  大数据为各个部门带来了巨大的机遇和变革潜力;另一方面,它也为利用如此大量增加的数据带来了前所未有的挑战。需要进行高级数据分析以了解要素之间的关系并探索数据。对于实例,数据分析使组织能够提取有价值的洞察力并监控可能对业务产生积极或消极影响的模式。其他数据驱动的应用程序也需要实时分析,如导航,社交网络,金融,生物医学,天文学,智能交通系统。因此,需要先进的算法和有效的数据挖掘方法来获得准确的结果,监控各个领域的变化并预测未来的观测结果。然而,大数据分析仍然充满挑战的原因有很多:大数据的复杂性,包括5V,需要可扩展性和性能来分析如此巨大的异构数据集以及实时响应。

  如今,有各种分析技术,包括数据挖掘,可视化,统计分析,和机器学习。许多研究通过增强使用的技术,提出新的技术或测试各种算法和技术的组合来解决这个问题。因此,大数据推动了发展系统架构,硬件和软件。但是,我们仍然需要大数据分析技术的进展来应对大数据挑战以及流处理需求。其中一个问题是如何保证及时性,即当数据量非常大时的响应性能?在以下小节中,我们将探讨应用当前分析解决方案时遇到的困难的例子:机器学习,深度学习,增量方法,粒度计算。

  大数据机器学习

  机器学习的目标是发现知识并做出明智的决策。它用于许多真正的单词应用程序,如推荐引擎,识别系统,信息学和数据挖掘以及自主控制系统。通常,机器学习(ML)领域分为三个子域:监督学习,无监督学习,和强化学习。

  1   ▏数据流学习

  当前的实际应用,如传感器网络,信用卡交易,库存管理,博客文章和网络流量产生巨大的数据集。数据挖掘方法很重要的发现有趣的模式并提取隐藏在如此庞大的数据集和流中的价值。

  但是,传统的数据挖掘技术,如关联挖掘,集群当应用于这样的大数据集时,在动态环境下分类缺乏效率,可扩展性和准确性。

  由于流的大小,速度和可变性,永久存储它们然后进行分析是不可行的。因此,研究人员需要找到优化分析技术的新方法处理数据,在有限资源条件下,以非常有限的时间实时产生准确的结果。

  对数据流的实验表明,基础概念的变化会影响分类器模型的性能。因此,需要改进的分析方法来检测和适应概念漂移。

  2   ▏深度学习

  如今,深度学习是机器学习和模式识别领域非常活跃的研究领域。它起着重要的作用预测分析应用程序如计算机视觉,语音识别和自然语言处理。

  传统机器学习技术和特征工程算法,其能力受限于处理原始形式的数据。相反,深度学习对超大数据集的数据分析及学习问题更有效果。事实上,对于从大量无监督和未分类的原始数据中进行数据表征的自动抽取,深度学习非常起作用。

  而且,因为深度学习是基于层次学习和提取不同层次的复杂数据抽象,适合简化大数据量的分析,语义索引,数据标记,信息检索和判别任务,例如分类和预测(ei,将原始数据(例如图像的像素值)转换成特征提取器)到合适的内部表征或特征学习子系统(通常是分类器)可以从中检测或分类输入中的模式的向量。然而,尽管有这些优势,大数据仍然是深度学习的重大挑战

  大量数据:大数据训练阶段对于一般的大数据学习和深度学习而言,这不是一件容易的事。这是因为迭代计算的学习算法很难并行化。因此,仍然需要创建有效且可扩展的并行算法以改进Deep模型的训练阶段

  异质性:大量数据对深度学习提出了巨大挑战。它意味着处理大量的例子(输入),大量的类类型(输出),以及非常高维度(属性)。因此,分析解决方案必须处理运行时复杂性和模型复杂性。除此之外,如此大的数据量使得用中央处理器和存储器训练深度学习算法变得不可行。

  噪声标签和非平稳分布:由于大数据的不同来源和异质来源,分析研究人员仍面临其他挑战,如数据不完整,缺少标签和噪音标签。

  高速:正如我们所知,数据以极高的速度产生,应该实时处理。除了高速度之外,数据通常是非静态的并且随着时间的推移呈现出变化的分布。

  由于所引用的问题,深度学习解决方案仍然缺乏成熟度,需要进行额外的广泛研究以优化分析结果。总之,研究未来的工作应该考虑如何改进深度学习算法以解决问题流数据分析,高维度,模型可扩展性。研究还要改进数据抽象的制定,分布式计算,语义索引,数据标记,信息检索,提取标准选择数据表示和域适应。

  3   ▏增量和整体学习

  增量学习和整体学习构成两种学习动态策略。它们是学习具有概念漂移的大流数据的基本方法。

  增量和集成学习经常应用于数据流和大数据。他们解决各种困难,如解决问题数据可用性,资源有限。它们适用于许多应用,例如库存趋势预测和用户剖析。应用增量学习可以在接收新数据时产生更快的分类或预测时间。

  4   ▏粒度计算。

  粒度计算(GrC)并不新鲜,但它最近因其在各种大数据领域的使用而变得更受欢迎。它在智能的情况下显示出许多优点数据分析,模式对大量数据集的识别,机器学习和不确定推理。实际上,GrC在设计中起着重要作用做决定模型同时确保可接受的性能

  从技术上讲,GrC构成了一个基于粒子的一般计算理论,如类,簇,子集,组和区间。因此,它可用于为复杂的大数据应用程序(如数据挖掘)构建高效的计算模型,文档分析,金融游戏,组织和检索多媒体,医疗等庞大的数据库数据,遥感,生物识别。

  分布式系统需要支持不同的用户理解不同的大数据粒度级别。还需要分析数据并以不同的观点呈现结果。为了满足这些要求,GrC为多个提供了强大的工具粒度和多次查看数据分析。这使得能够更好地理解和分析各种大数据集的复杂性。此外,GrC技术可以作为现实世界的有效处理工具智能系统和动态环境如FDS(模糊动态决策系统)。GrC可以解决流中不断变化的属性和对象的复杂问题。实际上,GrC在找到简单的近似解决方案,同时确保成本效益和改进描述方面发挥着重要作用。

标签:

责任编辑:bozhihua
在线客服