1.需求分析
近年来,随着媒介经营产业化、集团化的发展,收视率调查已越来越受到业界的重视。无论是电视运作,还是广告经营、节目评价,收视率都是备受关注的重要指标之一。
收视率既能够为媒介经营者经营频道和节目提供重要参考,同时也是广告商评价广告效果的客观依据。媒介经营者要想吸引更多的观众,就必须了解观众的收视习惯和偏好等,并以此为依据,制作相应的节目内容,调整和优化频道节目的编排;而广告若想取得最佳效果,需要广告产品的目标定位与观众群体的结构一致,保证广告投放的针对性;需要一定的观众规模,保证广告传播的范围;需要观众群的稳定性,保证广告传播的深度;从而使观众尽量记住广告的内容,并最终购买广告所宣传的产品。
广电企业正紧紧把握"三网融合"所带来的发展机遇,加快高清交互数字电视的推广,将家庭电视机变成多媒体信息终端,为广大用户带来全新的数字媒体体验。由于众多新媒体业务的推出和普及,需要建设一个数据分析平台,通过这个平台可以收集到所有双向用户、所有业务的用户收视行为数据,建立一套完整的数据分析及挖掘机制,用于更好地了解用户需求,促进各项业务的发展。
曙光方案集中解决广电媒体企业如下关键问题:
1) 数据采集、存储和转发。通过大数据技术满足海量、多种来源、多样性数据的存储、管理要求,支持平台硬件的线性扩展,并提供快速实时的数据分析结果,并迅速作用于业务;
2) 个性化用户推荐。不仅局限于数据本身的分析和决策价值,还通过构建大数据平台,整合业务能力,为用户提供融合、个性化的内容推荐服务。
3) 从内容传输到内容制造。使用大数据挖掘技术提前先于观众知道他们的需求,预知将受到追捧的电视。另外,还可通过观众对演员、情节、基调、类型等元数据的标签化,了解受众偏好,从而进行分析观测,为后续的影视制作等内容开发做好准备。
2.平台架构
根据曙光在广电行业多年的建设经验和业内其他客户大数据分析平台的建设经验,曙光设计如下图所示的平台整体逻辑架构:
整个收视行为分析平台设计分为4个层次,即数据源、数据预处理层(数据抽取、转换、脱敏、加载、规约等)、大数据支撑平台(数据存储,数据处理)、业务应用层等。
首先,数据由数据源经过统一的数据抽取和转换平台进行抽取、格式转换、脱敏等操作;通过ETL工具,将清洗好的数据加载到大数据平台中进行存储。由于汇聚了多个源的数据,通常数据量非常大,所以大数据平台需要具有良好的可扩展性。
其次,加载到大数据平台中的数据将被用于进行最终的数据分析和数据挖掘。同时,还可以根据具体的分析和挖掘需求,设计针对用户具体业务的查询任务流及更多的应用系统。
最后,大数据应用层通过建模对大数据平台中经过初步加工的数据进行进一步的分析挖掘,通过大数据可视化工具对分析挖掘结果进行展现;展现形式丰富多样,可以是图表,也可以是文档等易于理解的形式。
本次项目建设,需要整合机顶盒、BOSS系统、运维系统、媒资系统等多种来源系统数据,构建用户收视行为分析平台,完成对用户收视行为相关数据的统计分析,提升用户的满意度,提高广告投放的精准度。
本次项目后续建设,将根据实际业务需求开通实时榜单系统、个性化推荐系统和新媒体指数分析系统等面向业务的分析应用,并提供公共分析框架,实现向大数据分析即服务(即大数据2。0)的转变。
3.方案特色
本项目采用中科曙光自主研发并具有多年实践经验的XData大数据处理平台,实现了面向海量用户收视行为的及时、高效处理。平台主要特点如下:
1) 支持千万级别用户的收视热点/趋势实时分析;
2) 支持百亿级别机顶盒日志、VOD系统日志等信息的及时抓取和分析;
3) 支持用户特征提取和用户群体细分,支持基于用户和节目的协同过滤,实现基于富标签的智能化推荐系统。