出版业有“大数据”吗?

2016-08-10 17:08 来源:环球网
浏览量: 收藏:0 分享

出版业,大数据,媒体,互联网,图书

  2015年9月,国务院印发《促进大数据发展行动纲要》,明确提出要发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。

  在国务院的部署与推动下,各行各业都在谋划自己的大数据中心和大数据产业,出版业也不例外。

出版业,大数据,媒体,互联网,图书

  其实,人们对“大数据”的膜拜,再早可以追溯到《大数据时代》这本风靡一时的书,随着美国影视作品《纸牌屋》的播出和热评,使“大数据”又有了形象化的宣传效果。

  当人们热议“大数据”的时候,我一直想了解:出版业有“大数据”吗?具体到某一家出版单位,也会有“大数据”吗?

出版业,大数据,媒体,互联网,图书

互联网上的讹传

  一种在互联网上广泛流传的说法是:互联网上一天所产生的数据可以刻满1.68亿张 DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达 200万个(相当于《时代》杂志770年的文字量);卖出的手机为 37.8万台,高于全球每天出生的婴儿数量37.1万。截止到2014年,数据量已经从TB级别跃升到 PB、EB乃至ZB级别。

  这一组数据的潜台词似乎在告诉我们:传统出版业的数据量其实是非常有限的。那么传统出版业的数据量究竟有多大?是否够得上“大数据”?

  2013年3月20日在“中国IDC圈”网站上发表了这样一篇文章:《印象:人类生产的印刷材料数据量达200PB》。文中是这样表述的:“随着信息技术的发展,互联网已进入到人类生活的方方面面,随之而产生的数据也呈现爆发性增长,有数据显示,到2012年为止,人类生产的所有印刷材料的数据量是200PB,而过去两年产生的数据占人类历史数据总量的90%,并且预计到2020年,人类所产生的数据量当达到今天的44倍。”。

  这篇文章告诉我们,人类从印刷术发明以来,全部印刷品的内容数据量是PB级别,至于传统出版业的内容数据量,肯定少于这个数字,因为印刷品不一定都是出版物。但遗憾的是,这篇文章在提到“200PB”时,并未说明计算方法,亦未注明数据来源。

  另一篇提到“200PB”的文章是2015年4月21日发表于“36大数据”网站上的《报告:数据大爆炸,“互联网+”基础设施数据中心大发展(上)》。该文写道:“国际数据公司 IDC的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为 0.8ZB, 2010 年增长为 1.2ZB, 2011 年的数量更是高达 1.82ZB,相当于全球每人每年产生 200GB 以上的数据。而到 2012 年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是 5EB。”该文提到了国际数据公司IDC,且明确说明“200PB”数据是摘自中信证券分析师陈剑、李伟和王浩冰的《云计算/IDC行业专题研究报告——数据大爆炸,数据中心大发展—“互联网+”基础设施之二》一文。

  为此,笔者购买了中信证券的报告。

  中信证券的报告是这样表述的:“国际数据公司(IDC)的研究结果表明,2008 年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人每年产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。”

  从中信报告的表述中,明显让人感觉所谓的“200PB”应该是从IDC报告中引用的。但仔细推敲,又会疑惑,因为中信报告中的“而到2012年为止,人类生产的所有印刷材料的数据量是200PB……”与前面一句话同在一个段落,虽用句号断开,但整段未标引号。因此,究竟“200PB”是不是IDC说的看不出来。好像怎么理解都对。

  从网上的文献也可以看出,目前多数关于“大数据”的中文文章,常默认“200PB”为IDC的数据,且将其当成论文的背景予以介绍,也就是说,该数据已被当成公认正确的结论予以引用,甚至它已经成为绝大多数论文立意谋篇的基本依据了。几乎无人质疑过其真实性和出处。多数论文在引用时通常冠以“有数据显示”或“国际数据公司(IDC)的研究结果表明”,以此来指明出处,并暗示其权威性。

  为进一步了解情况,笔者又查阅了英文网站上的一些相关文章。

  一篇发表在highscalability.com网站的“How Big Is A Petabyte, Exabyte, Zettabyte, Or AYottabyte?”文章。文中是这样表述的:“200 Petabytes: All printed material OR Production of digital magnetic tape in 1995.”。显然,该文中“200PB”指的是1995年当年全部印刷品或数字磁带的数据量,而非截至2012年为止的人类全部印刷品的内容数据量。

  另一篇发表于2011年2月14日IBM网站上的“what’s in that 1TB?”一文,该文作者是Tony Pearson,IBM系统存储产品首席发明家和高级IT专家,就职于IBM Executive Briefing Center。文中关于“200PB”是这样表述的:“A Petabyte is thousand TB, or a quadrillion bytes. It is estimated that all printed materials on Earth would represent approximately 200 PB of information.”。

  从查到的两篇英文文献看,所谓“200PB”均为其各自独立提到,并未明确指出或含混暗示该数据与IDC有任何关系,且从上下文看,第二篇文章中的“200PB”似乎是为了说明PB的数据量级而举的例子,作者举例时还特地使用了“estimated”一词,说明不是严谨的科学统计。

  与此同时,笔者又查阅了IDC历年公开发布的报告,也未发现有此说法。

  根据以上简单的查询,虽未找到“200PB”的统计方法,但至少证明了一点,它肯定不是IDC的数据。

  但不管“200PB”具体出自何处,也不管它是如何被统计出来的,此数据被广泛引用至今,至少说明了一点:传统出版业的数据量不大,这种判断与人们的感觉似乎也颇为一致,因此几乎所有人都愿意相信其真实性。如果结合“过去两年产生的数据占人类历史数据总量的90%”的说法,传统出版业的整体数据量在比较中显得更小;如果再减去非出版物印刷品的数据量,传统出版业的数据量则微乎其微,至于单独一家出版单位,其数据量就微不足道了。

  这是互联网上关于传统出版业的数据给我的初步印象,这种印象的结果似乎在暗示,“大数据”与传统出版业关系不大。

标签:

责任编辑:admin
在线客服