专访 | 白剑波:文本大数据挖掘应用剖析《影响中国大数据产业进程100人》第三十九期

2016-05-11 17:05 来源:首席数据官联盟
浏览量: 收藏:0 分享

前言:

  大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由中国首席数据官联盟与网加时代网发起并承办,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟、数邦客协办的"影响中国大数据产业进程100人"大型人物专访活动全面启动,被采访对象分别来自政府、产、学、研、企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航,敬请关注!

第三十九期专访人物:中国首席数据官联盟专家组成员,北京智慧星光信息技术有限公司总裁 白剑波

1.png

  白剑波,中国首席数据官联盟专家组成员,北京智慧星光信息技术有限公司总裁。北航计算机专业硕士。曾经担任翰云时代科技有限公司总裁,NOKIA位置服务部门大中国区产品总监,甲骨文顾问咨询服务部中国区实施总监,Sun公司ISV工程部高级经理,北航教师。

  本期特邀嘉宾中国首席数据官联盟发起人刘冬冬,就文本大数据应用与白剑波先生进行深入探讨。

  刘冬冬:白总,今天谈文本大数据,还请您先给我们介绍一下文本大数据挖掘的基本情况,好吧?

  白剑波:大数据的概念在最近的几年迅速升温,成为最热门的一个概念。企业和政府机构都纷纷加大对大数据领域的投入,但是普遍存在着应用的焦虑,甚至是有些茫然。大数据带来的不仅仅是大的机遇,同时也是大的挑战,这需要我们对大数据挖掘的意义进行更加深刻的探索。

  大数据挖掘的根本意义在于从数据中提炼出有价值的信息,针对这些信息创造出洞察,再根据这些洞察并结合现状做出决定,依决定去执行,将大数据带来的机遇变为收获和成就。

  大数据是一个非常大的概念,我们在这里把讨论范围聚焦在文本大数据上。相对于传统的结构化数据,业界已经做了大量的积累,对于数据的获取、存储、处理、检索等已经具备了相当多的技术储备。但是对于非结构化的大数据,特别是文本大数据,业界正在持续加大投入。

  在文本大数据的源头方面,除了企业或机构内部的数据,互联网是一个巨大的来源。从互联网受众来讲,中国互联网拥有全球人数最多的网民。据中国互联网信息中心CNNIC发布的第37次《中国互联网络发展状况统计报告》中显示,截至2015年12月,中国网民规模达6.88亿,互联网普及率为50.3%;手机网民规模达6.2亿,占比提升至90.1%。在当今的这个自媒体时代,信息的传播也发生了巨大的改变,不仅量发生了爆炸式的增长,内容也更加多样化。

  文本大数据处理的第一个环节就是能够迅速地获取这些数据,不论是机构内部的数据,还是互联网上相关的数据,在第一时间获取这些数据,并且是全量的数据,才是数据挖掘的根本。第二个环节就是在这些数据中进行挖掘,通过各种创新的分析工具和手段将其整合为有价值的分析结果。

  刘冬冬:您刚才谈到,文本大数据在大数据应用领域已经取得了一定的进展,那么,您认为文本大数据挖掘都有哪些应用场景?

  白剑波:文本大数据的应用领域非常广泛,政府机构和企业非常关心的互联网舆情监测与预警,已经成为一个比较普遍的应用。企业口碑监测分析、竞争情报分析、精准营销、人物画像、企业画像、行业市场研究、客户满意度分析、风险评估、产品及业务流程优化等等多个应用场景也是以文本大数据挖掘为核心的。

  刘冬冬:互联网舆情作为文本大数据重要的应用领域之一,您给大家介绍一下当前互联网舆情应用情况,好吧?

  白剑波:好的,从舆情监测市场来说,我国对舆情监测系统需求较大的大致可以分为党政机关和政府组织、企业、学校和科研单位等。根据2014年全年舆情系统招标信息的发布数据统计,32.3%的舆情监测系统需求来自政府组织,27.9%来自企业单位,党政机关占17.6%,科研单位13.2%,学校比例8.82%。而对舆情监测需求最大的区域前三名分别是北京、浙江和贵州,达到20%和10%的水平。市场对舆情监测的要求也越来越高,主要从信息采集的及时性、覆盖面及预警的精准度及发现危机后应对机制上有了更高的要求。

  传统的舆情监测系统通常都以系统建设为主,由供应商为客户提供一套系统建设方案,进行数据采集,处理和分析的所有过程,但是这样的系统在后续维护,特别是采集环节的维护上难以跟上互联网信息变化的节奏,同时受限于硬件部署规模和网络带宽的限制,在信息采集的全面性和及时性上与客户的需求也有差距。智慧星光采用SAAS模式为客户提供服务,我们自己投巨资建设了一个高标准的智能化信息采集和处理平台,能够有效地避免这些情况,为客户大大降低了成本,同时在信息的及时性、全面性、精确性方面满足客户的需求。

  刘冬冬:刚才您提到人物画像、企业画像等画像技术应用,画像技术可以带来哪些价值?实现过程是什么样的?

  白剑波:在互联网逐渐步入大数据时代后,每个参与到互联网的人或企业都不可避免的留下行为记录,或者是发布在互联网上,或者是沉淀在各个日志环节中,所有的这些行为都将是"可视化"的。画像技术就是对这些数据进行挖掘,企业专注于如何利用其为精准营销服务,政府机构则专注于如何利用其为公共治理进行服务,改善公共服务,指导决策。

  我们这里说的画像技术包括人物画像和企业画像。人物画像就是通过公开的数据,对人物上网行为分析,对其不同的属性进行标记,从而能够区别其喜好等特点,这些属性包括:人口属性、社交关系、兴趣偏好、消费行为、情感的倾向性,甚至是个人信用度等方面。人物画像技术可以让客户精确地了解其客户群的分类特点,从而能够选择精准的营销策略。

  企业画像就是通过互联网的公开数据针对企业进行描绘,例如工商注册信息、知识产权信息、司法裁判信息、行政机构审核信息、企业及其品牌的互联网声量信息和美誉度信息等。这类信息能够让人们迅速地对一家企业的背景和经营现状进行判断,可以广泛地应用在企业监管、尽职调查、投资评估、营销等领域。

  画像技术的实现可以分为这几个部分:

  首先,收集到人物或企业所有的相关数据并将数据划分为静态信息数据、动态信息数据两大类,静态数据就是相对稳定的信息,如人物的性别、地域、职业、消费等级等,企业的工商注册、专利、软件著作权等,动态数据就是不停变化的行为信息,如人物的自媒体言论,浏览网页行为、搜索商品、发表评论、接触渠道等,企业的新闻报道,用户评价等。

  其次,通过剖析数据为人物或企业贴上相应的标签及指数,标签代表用户对该内容有兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等;

  第三,用标签建模,对于人物或企业进行分类。

  我们目前所实现的人物画像,已经应用到了公安的网监领域,在企业方面,也应用于意见领袖遴选、客户精准营销等方面。

  刘冬冬:前面您给我们分享了文本大数据以及其典型的应用场景,我想问一个更具体的应用问题,如何利用互联网大数据实现品牌监测和分析?

  白剑波:企业品牌信息的传播对于企业的营销至关重要,这些品牌相关信息出现在新闻报道,网站宣传,电商平台,以及众多自媒体信息中:博客、论坛、微博、微信公众号等。在进行监测和分析时,通过对所有这些信息源进行数据获取,从中过滤出相关品牌的信息,再进一步分析。分析维度主要包括:

  所监测各品牌的传播总量排名分析

  高频热词的排名

  行业整体口碑分析,包括正负面的比例,以及相关的热词

  地域分布分析

  产品多维度观点分析,比如对于汽车润滑油产品,可以包括价格、油耗、动力性、性能等多个方面的属性

  通过对自己和竞争对手产品的品牌传播分析,能够做到知己知彼,了解行业内的机会和威胁,及时调整品牌和产品策略,获取竞争中的优势。

  我们在品牌监测和分析这方面做的很多工作,包括基于标准化产品的企业和品牌监测,在品牌分析方面曾经为多个行业的客户提供过服务:物流、银行、汽车、互联网等。

  刘冬冬:刚才我们讲了文本大数据挖掘在企业营销方向的应用,文本大数据挖掘还可以哪些行业得到深度应用?

  白剑波:文本大数据挖掘的应用非常广泛,在未来的几年中,将会在电子政务,金融,电信,医疗卫生等领域得到推广和普及。我们目前正在实施的应用方向包括:

  智慧城市:主要是综合分析各个方面的数据,提供城市形象指数监测,跨部门文本数据分析,公共治理的辅助决策等。

  证券市场:结合企业画像技术,为投资商,量化交易的操作人员提供企业画像信息,企业监测信息,相关互联网声量信息,从而可以帮助其更快更准确地获取所需的信息。

  电信:通过跟运营商的合作,为其广大的企业客户提供精准化信息服务。

  银行:依据其内部的投诉数据,以及来自互联网的网民评价数据,建立其服务质量指数评估体系。

标签:

责任编辑:管理员

相关人物

在线客服