新华社全球音像云大数据平台

2016-01-14 20:01
浏览量: 收藏:0 分享

  1.项目概述

  音像资料库系统是新华社全社公共性、基础性技术平台,是下一代技术体系的重要组成部分。音像资料库已成为新华社视频节目制作、机构合作、对外营销的重要内容源头,服务于全社各部门视频及多媒体稿件的制作。

  在新华社实现"三个拓展"和战略转型目标的关键时期,资料存量是可持续发展的基础力量和核心优势。因此,新华社提出要积极把握发展契机,建设新华社全球音像云,以适应新华社视频业务未来发展的需要。

  而大数据平台是全球音像云的重要组成部分,其建设目标为基于廉价的服务器集群搭建信息资讯平台,改善现有非结构化数据离线服务水平;突破传统技术手段下无法解决的海量数据存储扩展能力差、备份恢复难度大的问题;利用结构化与非结构化历史数据资源集中优势,为业务提供更集成 、更长时间跨度、更多维度的数据查询服务,提升相关业务的查询访问效率,改善客户体验;使离线数据真正上线并得以充分利用,提高大量半结构化非结构化数据利用率,为业务发展提供基础。

  鉴于项目的复杂度和长期建设的需求,项目建设采用分期建设的方式。一期建设目标为基于大数据技术体系,构建支持结构化数据和非结构数据处理的分析平台,改善现有数据的离线处理水平;基于自然语言处理技术,对新华社海量新闻数据等资源进行分析,实现主题发现,提供新闻主题服务;基于用户行为分析技术,对新华社服务平台的用户行为日志进行分析,挖掘用户深层特性,提供个性化内容服务;构建具备资源管理和富标签管理的示范应用,初步实现下一步技术体系的要求,支持人物库、译名库、法规库和组织机构库的管理和发布服务;利用知识库系统对富标签体系进行扩展,加强富标签库的语义信息存储能力和应用价值。

  2.平台架构

  根据曙光的行业建设经验和大数据处理平台的技术发展趋势,曙光设计如下所示的平台整体逻辑架构:

  新华社全球音像云大数据平台一期系统架构

  整个平台一期系统可以分为数据存储层、业务支撑层两大部分。

  数据存储层分为数据库集群XData-MPP和非结构化数据存储管理平台XData-Hadoop集群。其中,数据库集群中存储资源数据、标签数据、用户行为分析结果数据及稿件聚类数据,非结构化数据存储管理平台中存储原始稿件资源和用户行为日志记录;

  业务支撑层分为数据分析系统和基础服务系统。业务分析系统对存储的数据资源进行分析和管理;基础服务系统提供对数据资源的发布服务,通过统一的服务接口,对本项目的集成发布门户及第三方系统提供数据服务。

  3.项目特色

  本项目建成平台主要特点如下:

  1)  支持互联网级别百亿条以上半结构化和结构化数据统一管理、查询;

  2)  支持企业级工作流管理、安全管理、多维数据的挖掘和叠加展现;

  3)  构建业内领先的数据分析、机器学习与文本数据分析挖掘能力。


标签:

责任编辑:管理员
在线客服