PPT演示、玻璃门上写“板书”、举例子打比方……3月25日,深圳科技园一栋办公楼里,深圳市华傲数据有限公司创始人、CEO贾西贝给记者上了一堂生动的大数据科普课。
没有晦涩的术语、难懂的原理,贾西贝总能用平实的语言把大数据领域那些抽象复杂的概念讲得清楚明白。
每当谈起这个擅长的领域,他都乐此不疲。“我们是省市引进的创新团队,给企事业单位讲述大数据理念,也是我们的使命。”
数据和石油一样不可再生
大数据,是指规模大大超出传统数据库处理能力范围的海量数据集合。这一概念最早出现于上世纪80年代,但直到2008年才开始逐渐被重视,成为互联网行业的热门词汇。
“过去,传统的数据库处理能力有限。”贾西贝说,2006年大规模分布式计算的出现,才让处理海量数据成了可能。“所以大数据是科技发展的产物。”
发送微博、地图导航、网络购物、注册论坛……随着移动互联网时代的来临,人们在生活中的每一个行为,几乎都会对应变为服务器上的一组数据。当点点滴滴数据汇集在一起时,就成为了一种资源。
在贾西贝看来,大数据和石油一样,都是不可再生资源。而全球最大的“数据油田”就在中国。“庞大的人口数量,让中国在大数据时代有着得天独厚的优势。”
贾西贝将大数据生产、共享交换、清洗、存储、变现、深加工等环节,分别对应油田、输油管、炼油厂、储油罐、加油站和石化厂。“大数据产业其他环节都是为了数量而生的,只有数据清洗是对质量的把关。” 贾西贝说。
众包众筹挖掘“数据油田”
“数据也分优劣。”贾西贝介绍,一个班级所有人的各科考试成绩是一组好的数据,但如果其中有信息缺失或错误,就会影响统计的准确性。在现实中,很多数据都是缺失、错误或者重叠的。“而华傲的核心技术,就是通过数据清洗,将垃圾数据清理、提炼成有价值的数据资产。”
“目前,数据清洗是国内产业链中最薄弱的环节。”贾西贝说,与“油田”或者“加油站”不同,它技术要求高、变现慢。国内企业更乐意在数据生产、可视化等能赚钱的环节投入。
如果没有数据,技术也无用武之地。华傲还需要在“油田”开采上多下功夫。为此,贾西贝钻研出了一套自己的办法。
一方面,对于线上非隐私数据的挖掘,华傲数据与牛津大学合作,共同开展“深网爬虫”技术的研究。所谓深网,是指没有链接直达,不能通过一般搜索引擎找到的数据。“你能搜索到12306网站的链接,但你没有办法直接查到每一张火车票数据。”贾西贝说,这些隐藏在接口背后的数据有更大的价值。
另一方面,为了搜集线下的非隐私数据,华傲独创性地开发出了一款数据众包软件——“随手赚”。对所在地附近的一家理发店拍摄10张照片并上传,用户就可以获得5元的奖励。像这样,线下的住宅小区、办公楼、园区、商业区等多种多样的信息,都有不同的“价值”。通过发动群众的“众包”形式,华傲就能在平台上搜集大量数据,而不用派出人力地毯式地搜集。
奖励的钱从哪里来?除了“众包”,“随手赚”的另一个独特性在于“众筹”的模式。需要这些数据的企业,就会拿出资金,奖励参与收集的用户,形成“众筹”。“这两种模式的结合,就像期房+团购。”贾西贝说,除了国际顶尖的技术团队,这种创新的商业模式也是华傲的重要竞争力之一。
让政府数据“跑起来”
“没想到社区还记得我的生日。”家住福田的张奶奶,在65岁生日这天收到了意外的惊喜。原来,社区把辖区内即将65岁的老年人排查出来,提前为他们办好了老年人优待证,并在生日这天,带着贺卡和礼品,为老人送上门。
“这就是大数据在智慧城市中的运用。”贾西贝说,大数据技术的战略意义不仅在于掌握庞大的数据信息,还要能对这些含有意义的数据进行专业化处理和应用。
目前,华傲的技术已经广泛应用到政府和金融机构。2012年开始,该公司参与了深圳智慧城市“织网工程”建设,通过构建人口、房屋、法人三大基础数据库,为民生服务、社会管理和政府决策提供数据支撑。
智慧城市的应用很多。例如,通过对一个片区儿童的年龄、迁入流出情况的收集和分析,可以得出未来三年学龄儿童人数的变化情况,提前进行合理的学位规划;通过小区人口统计,老人多的社区,在社康中心配置慢性病专家,年轻人多则适当增加孕检、疫苗注射等服务。
目前,政府的数据库,大多都是纵向垂直系统,缺乏横向联接。“就像一根根独立的烟囱。”贾西贝说,大数据技术可以帮助政府,在“烟囱林立”的系统之间,安装“水龙头”,“实现数据的流动。”
“过去办入学手续,常常需要七、八个证明。”贾西贝介绍,华傲通过搭建公共基础信息资源库,将各部门信息整合起来,市民就可以在一个单位直接办理。“我们的宗旨就是让数据多跑路,让群众少跑腿,让‘证明你妈是你妈’这样的事情不再发生。”
创业源自不安分的心
“我一直都是读计算机专业。”从本科到博士再到创业,贾西贝的研究方向始终未脱离自己的兴趣。从英国爱丁堡大学博士毕业后,他开始从事数据质量相关的博士后研究工作,牵头及参与过多项世界级数据质量管理、半结构化数据管理领域的项目。
入选英国爱丁堡皇家学会创业研究员、获得IEEE国际数据工程大会最佳论文奖……2011年,贾西贝带着众多研究成果回国创业。他坦言,以自己的学术背景,如果留在国外,生活会轻松很多,但他并不后悔。“创业,可能真的源自自己从小就不安分的内心。” 贾西贝说。
创业之路并没有想象的顺利。“找人、找钱、找政策都是难题。”贾西贝回忆,海归的人脉几乎都在海外,哪怕是带着团队一起回国,寻找本土合作伙伴仍然花费了相当长时间。
“政策不是太少,而是太多,让人眼花缭乱。”贾西贝说,各地都有人才引进政策,但哪里更适合自己却不好把握。再三对比之下,贾西贝选择了深圳,并在2012年入选深圳市“孔雀计划”团队。“深圳的产业链布局非常好,资本市场也活跃,有着非常独特的优势。”他说。
目前,华傲数据的团队中不仅有牛津大学、爱丁堡大学的大数据领域博士、专家,更有贾西贝的导师、美国计算机协会会士、国家“千人计划”特聘专家樊文飞教授。“我们的团队在大数据领域是国际顶尖的。”贾西贝对此充满自信。
87项国内发明专利、40项国际专利、12项软件著作权、10余名顶级数据专家、100多名专业数据开发人员……成立5年来,华傲数据在大数据领域不断耕耘。目前,公司共为近100家企业和政府机构提供过数据服务,涉及8大行业。
大数据产业就像老中医
根据国际数据公司统计,早在2011年,全球数据总量已经达到1.8ZB,即1.8万亿GB,并且以每两年翻一番的速度增长。预计到2020年,全球将总共拥有35ZB的数据量。“未来大数据将无处不在。”贾西贝说。
如今,大数据已不仅仅扮演着“工具”等配角,而是实实在在的“生产力”,是一个正在兴起的庞大经济产业。根据统计,2015年我国大数据市场规模已达102亿元,2017年有望达到170亿元。行业内报告分析称,10年后大数据将可以撬动万亿元级GDP。
面对这样一片广阔的“蓝海”,贾西贝表现得很淡定。“现在一些企业十分‘狼性’,通过大量的‘烧钱’,实现快速发展。”他认为,一旦这样的企业成功,必将迅速占领市场。但同时,失败的风险也很大。而华傲崇尚的是稳扎稳打的方式。他相信,多年的技术积累和团队凝聚力,是公司竞争的本钱。
“这个行业就像老中医。”贾西贝说,市场从2012年才开始重视大数据积累。5年、15年后,积累的数据更多,就能够做出比现在更惊天动地的事,有更大的想象空间。“未来,华傲要成为世界级的专业厂商。”