2017中国工业大数据大会·钱塘峰会,由工信部、浙江省人民政府指导,中国工业经济联合会、信通院、互联网协会、浙江省经信委、萧山区人民政府共同主办,杭州市经信委、浙江省工业经济联合会、浙江省企业信息化促进会、萧山经济技术开发区、萧山科技城联合承办,于2017年5月5日在杭州国博中心顺利召开。会议围绕“数据驱动创新、融合引领发展”主题,进行探讨交流。现将兮易董事长陈广乾精彩演讲实录如下:
我们是传化科技城第一批的入驻企业,所以今天我利用这个时间把我们这几年做的大数据在企业中的项目给大家做一个简要的汇报。这个是兮易在做的项目,2013年、2014年主要做用户的洞察和用户的交互,主要是做像国美在线、海尔等等,然后2015、2016年往中台开始发展,也做了一些工程机械的企业。今年逐渐涉及工业大数据领域,就是向社会级方向发展,这几年的大数据项目签订的销售额差不多有2000万,也受到一些企业老板的赞同,因为老板给你几百万项目,还是要效益的,所以今天说到底怎么在企业落地。
这是我们开发的模型,这个模型已经产品化了,这个主要是因为今天上午讲的大数据和智能制造其实是一个一体的不同侧面,其实未来一个很大的中国制造业发展的关键期,就是智能工厂、互联工厂和数据工厂,我们根据这张图现在开发了一个产品,给中国企业尤其是制造业做整个智能制造能力测评的模型,今天晚上我赶到黄山,明天黄山市政府和我们一起来对黄山项目的一些大企业做智能制造的能力测评,就是依据这个模型,这个模型里很重要的一块是大数据,在2.0时代还谈不到大数据,主要是数据分析,2.0-3.0的时候,是数据的统一管理、数据的服务,在3.0时代工业大数据的概念出来了,而且重要性出来了,所以整个和企业的智能制造、数字化、网络化是密切相关的。由于今天不是讲产品,所以我就不会把重点放在这上面。
这是我们2013年开始做的前端的面向用户端的大数据基本业务模型。原来我们对用户的理解,过去我们在C端主要还是在经营渠道,后来逐渐发展到经营门店,再后来由于互联网的冲击,我们逐渐关注到传统的B2C企业去接用户,但是用户到底是什么样的消费行为、什么样的喜好,怎么对他们进行更深的理解,这时候对用户的洞察,视角就和原来不同了,所以我们开发了一个IUS-433、BDA模型就是怎么洞察用户,给用户提供更好的服务,433是个工具,最终要落到大数据上,要落到对用户精准的分类分群,基于分类分群实行不同的算法,最后算法要进行不但的训练,然后为企业提供增值的服务。
下面我们来一个具体的例子,这是我们做C端大数据模型所用的方法,今天上午的会上,我其实对西安交大的发言是深有感触,为什么?其实这个模型和他今天上午发言基本是一个模型,首先要有目标,在企业来说目标就是老板要的数,企业的追求永远不是大数据的算法,永远追求的是销售收入、利润、成本、质量以及客户满意度,这个其实就是我们做大数据的本原。
通过这个来鉴定我们业务的需求模型,其实大数据模型的一个很重要的基础前提是我们的业务模型,比如这是我们在国美也好,在海尔也好,在宝岛也好建立的前端大数据的业务模型,这个业务模型里再进一步研究,就像今天清华的王教授说的,业务模型后面一定要找到表征这个业务能力的数据模型,这里面一定是紧密的强相关的,所以我们和清华也好,北大也好,大数据方面的博士沟通方面,感觉到他们对数据的算法是有很深的研究,但是找不到数据后面的业务的含义,所以业务是个很强的训练,找到数据模型以后,为了解决这个业务问题,我们需要用到哪些算法模型。
其实不是所有的数据都是大数据,其实社会数据早就有,质量数据也早就有,但是这个数据里面我们到底能否通过建立我们原来认识不到的数据的深度所提出来的新的算法模型,能解决新的价值增值问题,而且这个数据确实现在越来越异构了,越来越丰富化了,我们做飞机的时候,不仅仅是传统的系统结构化数据,还有大量的非结构化的数据,也有从网上下来的热数据,拿这些综合的算法分析,得出最后到底什么样的产品适合什么样的用户,所以这个模型是我们做前端大数据分析依据的一个基本的方法论。然后这个模型建立起来以后再做算法,算法形式模型以后,回过头来又来检测我和我实际的业务需求到底有多少差别,不断训练模型,一直到这个模型能解决业务问题,能产生实际效果,能完成的目标,来形成一个闭环的循环。
这个才是算法,所以这是基于前端的用户,到底用户具有哪些相似性,哪些用户的消费行为是聚类的,是分群的,我们根据这个标签怎么做算法,然后这是基于算法模型,这下面是算法的基本步骤,到底输出哪些,输入哪些,哪个和哪个是进行相似性分析,这是一个算法。所以我个人觉得是不是数据和大数据的去年,除了我们刚才说的业务模型之外,其实你有没有一个非过去的传统学所解决不了问题的一个新的算法模型,这是我们前端的一个案例。
2015年以后,我们逐渐往后端走了,这里面又是一个业务模型,这里面我想讲一下,其实为什么传统工业大数据有它的复杂性,今天上午讲了很多,因为它很大的一个问题是要和企业的问题产生结合,而且要和它的生产、产品、产线形成结合,所以这里面有相当的专业性。这个模型其实就是一个工程机械行业的一个每年销售大概40亿-50亿的核心业务,从这个业务模型里面我们来看,什么数据能表征它业务的痛点,表明它业务痛点就意味着这个公司业务的效率降低,资金的流失,客户的流失,这些是从数据来反应出来的。
我们过去所做的传统咨询,有的时候就过分地侧重了业务和业务流程,没有进一步地分析业务流程背后的数据断点所造成的业务断点的损失,这是有了业务算法以后我们形成的新认识,所以现在基本上把一个企业的业务模型做到第三级就可以了,像这里面我们就做到第三级了,但这里面大概有100多个到三级的业务流程,这个业务流程的失效造成企业大量损失背后的数据逻辑是怎么样的,我们做了520个数据的断点图。比如说,这是一个销售的端到端流程,这个流程的主要节点大概有10个,构成了主机销售端到端的流程,表明这个业务流程有没有竞争力的指标到底是什么,比如说预测的提报,有多少个买新的挖掘机的线索,能够让我签到合同,从这里面去找到数据相匹配业务的核心结构,找到之后,我们要看这个数据现在是否在系统里。
还是手工的,再要进入到所谓大数据几级架构的第二个P层,我们要数据的汇总和打通,然后我们要建立模型,一定是有模型之后再做数据的清洗、加载、转化,这个数据的提速点、所对应的活动、所对应的产品维度、所对应的交易维度、所对应的人员维度,这些就构成了对于这个流程所表征的几乎是全维度的数据模型。
再往下走,进入数据模型以后,我们在做算法之前其实很重要一步是了解它的规则,就是我们说的业务规则,这对我们形成算法模型是非常重要的,我们不懂这个业务的规则,你很难做出算法模型,这也就是说,我们和大量大学的博士沟通感觉到一个很大的痛点,就是说算法很懂,但是你不知道算法后面的这个企业的特有业务规则是什么,你还是做不出来让这个企业满意的算法模型,所以这里面就涉及到大量的业务规则,如果这个算法模型前面的规则大概有11个,到底我们接受客户流失的标准怎么设定,合同的预期也好、汇款预期也好,这个预期到底怎么分等级,三个月的预期就要电话催,六个月预期到面催,九个月进入不良债权,十二月可能要拖车,这是它特有的行业业务的规则,如果你不懂业务规则,做出来的算法也没有意义,所以在企业的落地是有这么一整套完整的逻辑。
下面再走才是算法模型,这个算法模型由于我们现在已经陆陆续续做了这么多年,提炼了上百种,但是哪些模型适合哪些业务,还是由业务本身和我们的算法团队共同来探讨,但是都是为了满足企业的目标。到了这个程度了我也不懂了,这是我们的算法团队的专业,所以我们其实是有两个不同的团队在组合作业,一个是对一个企业的业务比较精通的业务团队,同时和业务团队紧密配合的算法团队,当然首席科学家是业务和算法在一个人的脑子里比较集合,这种专家是最有价值也是最难培养的。这是我说的第二个案例,刚才的案例确实收到一些董事长预想不到的效果。
这张图是我画的,这是一个企业端到端的业务模型,其实质量管理从这张图看是蛮复杂的,而质量管理是制造企业像生命一样重要的核心业务流程,那么这个核心业务流程从最前端看,整个端到端的质量管理大概有11个主节点,从用户的质量投诉、索赔开始,一直到对供应商的质量控制,以及到质量成本分析,所有这些流程到底和你的价值链是什么关系,这又是这个业务模型的一个难点。比如说内部配套件的质量涉及到我供应链里面的组装,最优成本结构涉及到我的质量目标,我的设计质量涉及到整个研发和设计,所以里面是有非常强的逻辑关系的。这个模型我们最近用到一家企业,现在这个项目比较大,而且还在做,其实就是应用了这个质量的业务模型,在一个很大的企业,就变成了这个模型了,这是一个中国最大的商用车的企业,现在我们正在给它做分析,所以由于保密的原因,我就不再详细阐述了。
最后因为它每个月回到后台有10T的数据量,但是现在基本在睡大觉,所以在现在这个大的环境下,董事长一直希望有这么一个比较落地的大数据项目,能够形成最优的质量模型和导致这个质量提升之后所带来的最优的成本模型,现在这个项目正在进行当中。
最后这张片子,这是我们自己通过差不多四年的大数据实践,开发的一个兮易的大数据建模方法论模型,这个放出来给大家,希望大家照下来用了以后,最好是提一下这是我们兮易创建的一个模型,确实我们团队花了很大的工夫把它提炼出来,我今天还一直想能不能把这个东西都端出来,其实这个还是最初的一步,我们总共是8个步骤,55个板块,200多个模块,下面这个我就给大家,因为底层的东西涉及到我们核心的资产,所以我给大家看,也就是每一个里面我们都有应用案例,比如说第一个其实就是今天上午何院长讲的需求洞察和业务蓝图规划,这是我们在企业里做大数据项目的基础和前提条件,还是回到到底这个企业的需求是什么。
在这里面,1.1叫复杂系统的本体与场论高阶抽象,总共大概我们整理了250多个细小的组件,这样对我们自己来说,为企业开发做大数据项目,效率就更快了,不然的话,最初做的时候,我们也是像无头苍蝇,2013年做的项目赔了不少,但是现在逐渐在提升我们的效率,未来我们想进一步开发成一个方法论的产品模型。这是一个我们近几年走过来的,在企业大数据做法的一些经验,分享给大家。
我最后总结一点,真正做中国制造业的大数据项目,其实有几个关键的概念不能脱离开,因为我们不是在学校里做研究,企业给你几百万,我们最大的项目六七百万,企业即使给你两百万,他要追求的也是你给他带来多少效益,所以这是我们思考大数据的出发点。从这个出发点出发,我们首先要了解业务,如果这个方法论建立起来以后,我们很快可以出一个模型,我们不断在这当中了解,在了解过程中,很重要的关键是和它目标相吻合的核心业务模型到底是什么,这是一个很重要的关键点,抓住这个关键点,你把模型建到2层、3层就可以了,然后要研究这个业务造成痛点、流血点、损失点的数据是什么样的体系,这是一个重要的逻辑,这个体系建立起来以后,这些数据就进入到传统的问题,到底数据有没有用,它是系统采集的还是人工采集的,这个数据间的逻辑是怎么样的,这个数据建立起来以后,能否实现它的业务模型,业务模型能否实现我们这次优化的老板要的目标,这个逻辑一定要在我们脑子中很完整的建立起来,然后才进入到我们所谓的大数据通常所说的怎么样抽取、加载,然后再进入算法。
我再强调,在做算法模型以前,还要根据业务模型来摸这这个算法的业务规则是什么,这是我们这几年走过来的经验教训,和大家分享,这几个步骤掌握起来了,然后建立起来这个方法了,不断地训练,不断地和业务模型匹配,最后总能找到让这个企业满意的价值增值的点,能够一定程度实现老板要的企业目标的改善,这个目标在刚才的例子里,有可能是质量优秀曲线,有可能是成本最优曲线,有可能是经营的最佳效率,有可能是前端客户360的分析等等。
萧山科技城位于钱塘江南岸核心区,规划面积50.7平方公里(含水域面积13.6平方公里),拥有12公里生态江岸线,核心区距G20主会场13公里,距萧山国际机场10公里,是杭州南部的科技新城和萧山科技创新主平台。平台着眼于全球视野下高端要素的整合以及产城融合发展体制机制的创新,打造全国知名的工业制造转型升级示范区和试验平台,重点发展工业大数据等高端信息经济、机器人等智能装备制造,新材料新能源及影视文创等产业,同时,与传统制造业转型升级紧密结合,打造有利于产业创新驱动发展的产业生态。
萧山科技城内拥有以5所高校为依托的高教园区和大学科技园,以浙江国际影视制作中心、钱塘大数据交易中心、清华长三角研究院生物工程中心为载体的产业创新创业平台,同时,与上海陆家嘴集团、传化集团共同打造国际水准的现代化城市,区内拥有惠灵顿双语学校、国际社区、创业谷、星级酒店等丰富配套。萧山科技城面向未来的顶层设计和勇立潮头的拼搏精神,将造就杭州南部又一座宜居宜业的科技新城。