在一次研究工作中,有同事说到,目前舆情分析产品提供的信息量还不够多,用户在阅读时感觉还不解渴。于是,凭着感性和记忆,现场就做了呼应:要做大数据长尾,充分应用大数据技术,拉长舆情分析产品的信息“尾巴”。
回到案前,又诚惶诚恐,担心一时的心血来潮,用新名词误导同事。即刻又开始上网查找大数据“长尾”的理论依据。幸好,所查长尾理论的观点与我的理解基本一致,一块石头落下。觉得这个题目蛮好,所以,把观点和大家分享。
还是先翻一下烧饼,对长尾理论做个注释。长尾理论是统计学中对幂律特征的一个口语化表达,正因为网络经济的发展,该理论广为传播。长尾理论与生活中最接近的事例便是字频,少数的汉字使用频度较高,大量的汉字使用频度并不大,所以形成了一个长长的“尾巴”。大概意思是,没有长尾不行,少数的汉字表达不了完整的词意;同样,若长尾足够长,大量不常用汉字的低频使用所发挥的作用,不亚于少数高频字。也就是我们平常所述的“蚂蚁扳倒大象”、“蚂蚁雄兵”之类的现象。
在传统经济时代,企业的成本分析、资本的逐利倾向、人们的行为选择,往往会遵循“二八法则”,或者说是“二八”特征比较显著。大家在选择上,基于成本和效率的考虑,不愿意为蝇头小利而大投入。但在互联网时代,由于科学技术的突飞猛进,这一思维被颠覆和创新。一方面,通过互联网提供服务和产品的成本显著降低,包括存储、运算、信息收集和渠道等等,投入变得可以接受;另一方面,人类的需求由低向高层次发展,基于社交、尊重和自我实现的需求变得趋于个性化、扁平化、专业化、小众化,在客观上要求有个“长尾”供给。于是,网络时代长尾理论盛起,长尾事例也比比皆是。
再深的理论留给统计学家和其他研究者。本文的观点是:大数据并不排斥“二八法则”,但更适用长尾理论;大数据“长尾”的长度由需求决定,而需求的空间可以是无限想象。有人或许还有个疑问,大数据长尾和“数据+”有啥区别?说实话,笔者并不认可“数据+”的观点。简单的理由:数据是内生的、资源性质的,不是外部强加或叠加于他的,不是工具化的手段,所以,定义“数据+”是欠妥的。
如何去做大数据的“长尾”?一句话,充分地挖掘需求、迎合需求,让需求得到无限地满足。回到文头提到的舆情分析报告信息量不足的问题,完全可以用大数据和大数据技术满足之。总的思路是这样的,舆情分析产品的主体部分还是尊重“二八法则”,毕竟有个主次和阅读习惯问题,不能喧宾夺主。然后,运用大数据技术作出一个舆情分析产品的“长尾”。目前想到的,至少可以由这几方面组成,如舆情事件地的概貌、风土人情、经济社会信息,与舆情事件相关的市场主体信息,类似舆情事件的演变参照,此次舆情事件的发展推演,针对舆情事件的专家观点等等。虽然需求可能不大,但万一需要呢!这就是大数据长尾的益处,哪怕是一丁点的需求,信息技术的发展给了我们实现需求的支撑。更何况还有个“98法则”,数字音乐点播统计表明,听众对98%的非热门音乐有着无限的需求。套用马云的“梦想体”,改成大数据版:“信息还是要给的,万一有需求呢?”
舆情分析产品是事件级的大数据长尾案例,企业信用报告同样可以做成主体级的大数据长尾产品,思路也基本类似。专业数据库构成信用报告的“实体”,主要由信用服务机构通过尽职调查获取的专业数据和专家分析组成,这部分数据属于信息价值密度较高的数据。然后,进行其他数据或信息的叠加,包括通过互联网采集的电子商务、新闻媒体、科技文献、社交等数据,以及与主体相关的“董高监”个人的信用行为记录信息,分门别类地做成“长尾”。如此通过多个维度勾勒出一个市场主体的信用画像。想必,这样一份信用报告的价值对于交易伙伴来说,含金量要远远大于传统的评级报告、征信报告。所以,大数据这个“尾”是“虎尾”,在于创新、霹雳有声。