荐读 | 大数据掘金路线图:关于数据资源的规划和设计

2017-03-29 17:03 来源:智慧城市漫谈
浏览量: 收藏:0 分享

大数据成了金矿,人人都想挖一挖。但大多数企业的情况还是拥有数据却无法变现,缺乏行之有效的大数据项目。本文略过业务诉求和项目目标,在假设已经进行了详细需求调研、有了业务模型基础上回到数据本身,看看在做数据变现之前应该做些什么样的“苦活、累活”。  

一、数据规划内容及步骤  

1、数据评估。调研当前数据存量,结合业务运行频度,数据产生效率,在一个设计的未来时间段内,评估数据的可能成长规模。

blob.png 

2、数据存储架构。根据实际的数据规模、数据格式构成、数据访问频度、数据存取操作等特性,规划数据资源的存储容量,选择不同类型数据存储的载体,并考虑数据高效访问和数据备份的便捷性和低成本。  

3、数据生态和关联设计。基于业务模型,分析各数据源之间的内在关联关系、相互依赖关系、数据变化的影响关系等,确定各数据源之间的数据流向,设计总体数据架构和模型。  

4、数据发布和共享模式。根据行业特点,数据敏感度和数据的需求受众,规划设计合理的数据共享渠道和共享模式。对于数据共享范围广,乃至基于中心环境的数据共享访问,设计数据共享APIs。  

二、大数据的建模和分析  

1、数据梳理和探索。为大数据分析建模选择必要的数据元素,实现数据梳理,探索数据的内在规律和特性,为算法选择做原始准备。  

2、算法选择。结合行业经验,选择最优算法,或者选取多种可能算法以备对比。

blob.png  

3、分析模型构建。大数据分析模型设计,实现大数据的分析过程。  

4、模型训练和评估。对原始设计的模型进行训练,调整优化相应的分析参数和阈值,最终实现模型准确给出分析成果。对比不同算法模型分析成果的优劣。  

三、并行计算架构的设计和服务内容  

1、并行计算和存储架构设计。综合系统需求、计算规模,实现运算架构的规划设计,搭建稳定且易于扩展的底层基础运行设施。  

2、架构性能优化。设计大数据系统性能优化方案,排除性能瓶颈,提升整体系统运行效能,实现系统基础架构运行的均衡化。  

3、关键故障诊断服务。系统运行关键故障的诊断、排查,帮助实现大数据系统故障定位,提出故障处理方案,并协助完成故障解决和相关性调试。  

四、所谓的标准和规范规划  

这个有点鸡肋,不做吧,好像很需要,做吧,其实还真没多少实际价值。在一个本来不标准不规范的领域谈这个有点牵强。  

正经的说这部分应该包括从数据采集、元数据标准,直至大数据共享开放和服务访问各层面,覆盖数据视角、技术视角和管理视角。包括不限于以下内容:  

1、基础标准:整个标准规范体系的总体定义,相关术语和统一说明。  

2、数据标准:数据的来源与构成标准要素、数据格式标准、数据供需相关标准、数据字典、元数据与目录等,甚至围绕数据生态系统的权利与义务。  

3、技术标准:包括数据集的描述与访问,数据处理生命周期,大数据集之间的互操作和接入接口标准,另外还包括行业相关的数据分类、数据质量、数据溯源等相关标准。  

4、平台与工具标准:定义系统建设所需要的大数据基础设施相关架构与功能、组成部分、接口、访问与人机交互、性能、扩展性等相关的标准。  

5、安全与隐私标准:系统运行安全标准,包括数据访问与处理流程标准、系统管理安全标准等;数据访问安全标准,包括基于身份认证的数据授权、访问审核、数据审计等相关标准;隐私保护相关标准:界定数据隐私,定义隐私保护标准和等级。  

6、管理运维标准与制度:系统运行维护管理制度,数据资源开放与访问审核管理制度,安全管理制度。  

7、行业应用标准:参考相关行业标准,定义大数据资源与分析成果对行业相关应用和用户提供大数据服务的相关标准,属于专用数据标准和服务访问标准。 

标签:

责任编辑:admin
在线客服