基于大数据的教育决策支持案例分享

2016-01-18 17:01
浏览量: 收藏:0 分享

  魏顺平 博士 以下为魏顺平博士报告全文大家下午好。非常荣幸能够站在这里做分享,因为我以前在下面听课。 我今天的分享从以下三方面来介绍。一、大数据时代来临;二、数据挖绝与教育决策支持;三、相关案例。

  前面的专家已经分享了一些比较宏观的框架,接下来会说一些具体的事情。 通过百度指数可以看出大家都在关注大数据。通过百度指数我们看过去五年对比云计算和大数据,在2014年以前是云计算占优势,2014年之后大数据占了优势。这个转变发生在2014年3月4日,这一天发生了什么呢?马云在这一天发表这样一个观点“人类正从IT时代走向DT时代”,可见这是一个人物的影响力。

  现在的数据已经达到了天量,已经达到了1865PB这是跟惊人的量。有人预测在2020年会达到40ZB。 大数据在我们的生活中包括医疗、交通、社会、商业、科研、体育。 为什么说大数据跟决策有关系呢?最近看到李德毅院士发表的一个观点“ 脑认知的本质等同于大数据认知”。正因为这样他们之间才可以发生一个关系。

  计算机时代产生了计算方式的革命,互联网时代产生了信息传播方式的革命, 大数据时代带来一个决策方式的革命。

  套用一句广告词就是“use what you know to power what you do”。在《大数据主义》这本书中提到“ 人们将更加依赖于数据和分析,而不是直觉和经验;同样,它还将改变领导力和管理的本质”。

  当然,有了数据并不能自然而然的为你的决策做支持。在我们教育领域实际上有这样一种困境,在信息技术广泛应用于教育领域的今天,肩负着决策之责的人们,管理者、教师、学习者,正经历着被数据海洋所淹没的体验, 决策者们淹没在数据的海洋中,却又忍受着信息的饥渴。但是随着计算机技术的不断发展,我们认为数据以及数据挖掘可以作为决策的依据,我们能够通过数据挖掘的方式让数据说话。

  当然原始数据是不会说话的,比如说考试成绩、论坛的日志、论坛的帖子内容。但是这些数据经过加工,利用可视化技术做这样的信息图,做这样的云标签,做这样一些积累,大家可以仔细看一下,我可以说这是过去五年我们北师大教育技术团队的一个基本状况。

  我们可以做这样的决策树提供一个规则帮我们做一个决策。

  还可以根据路径转换图帮助我们发现学生在网络平台中用什么方式学习。

  回到一些数据挖掘的做法上,当然大数据时代可以有一些独特的数据挖掘的特点。《大数据时代》一书的作者维克托·迈尔-舍恩伯格和肯尼思·库克耶(2013)认为,在大数据时代处理数据理念上有三大转变:抽样到全体、绝对精确到效率、因果到相关。

  同样李德毅院士在一份报告中提到 大数据认知的方法学应该是实践中的研究可能胜过研究中的实践,由下而上的可能要胜过由上而下,数据可能胜过程序、记忆可能胜过计算,价值可能胜过知识,关联可能胜过因果,这个观点和前面是类似的。

  刚才说了大数据有4V、7V这样一些特征,比如面对数量巨大,我们应该采用一些公布式文件的系统进行并行运算。

  针对结构化、半结构化的数据,我们应该采用信息抽取的方式实现非结构化向结构化的转换。

  面对价值密度低呢,我们采用数据挖掘的方法来进行数据的清洗。

  对于实时产生的信息我们应该采用自动获取效率优先的方式来获取信息。当然流程还是数据挖掘一般的流程。

  目前数据挖掘方面的关键技术和工具已有一些。作为领导层希望有一个决策支持系统,将各种算法和工具整合在一起成为一个决策支持系统。 我相信关键是技术,工具,只是自己做的完可以用这样的工具。包括这样一些市面上共享出来的,都可以做成经常用的时候一些工具。如果说领导用他肯定想到你给我整个系统,这是一个解决方案,把一些算法结合在一起。

  我们有这样一个架构,从数据来源、数据挖掘与可视化以及倒决策支持的这样一个架构。

  现在很多的云服务可以为我们的大数据工作者带来一定的福音,因为我们不需要去维护机房提高服务性能,像亚马逊提供的这一套解决方案里,从数据采集、数据挖掘到数据可视化提供了一个系统的方案,大家可以选购。

  下面我跟大家分享一个我们学校的案例。这是我个人对大数据的理解,我强调他的三个属性,全量超大规模,多源异构、实时变化,当然是发生在教育教学过程中的。我们可以看到课堂教学数据、在线教学数据、教学管理数据。就国家开放大学作为一个教育机构而言,更多的数据是在线教学数据和教学管理数据。

  我在做这个事情的时候,怎么理解教育大数据呢?我们在做工作做研究的时候总是会有一个目标总体。比如我们做一个研究,了解全国中小学生的生活习惯,这个题目出来我们首先要抽样,找到北京市的实验小学找样本,但是这样全国的的中小学学生一下缩到了北京市的某所小学上,这样做目标整体远大于样本。但是如果我们能做的目标整体约等于样本的话,我认为这做到全量。

  我想做这样一个研究,成人学习者在线学习行为特点及其影响因素分析研究。目标总体是全国成人学习者成人高等教育本专科在校生653万人,国家开放大学大概是368万人,这样目标总体和样本大概数8:1的关系。我的样本是过去三年在国开大学学习平台的学生大概是200万人,这样我基本能够做到目标整体约等于样本这一点。

  我的案例涉及到教学、管理、科研方面,比如各类教育在线学习开展情况如何,大规模是否是良方?未来招生如何,是否需要扩大其他招生渠道?在科研方面怎么聘请专家。

  下面这个案例是各类教育在线学习质量与办学规模的判断。在这个案例中我采集成人高等教育、高等职业教育以及社区教育等三类教育的在线学习大数据,向决策者反馈在线学习现状,并得出小规模组班教学才是有质量的在线学习的重要保证。如果不是小规模会是一个怎么样的结果呢?图中有两个曲线,一个是正态分布曲线一个是无尺度网络曲线。无尺度网络曲线对应的是一个无穷大无穷小。做教育的人不希望看到这样一个曲线,就是整个班级中学生的成绩优秀的不是很大差的也不是很多,大多数学生集中在一个中等水平。我们看一个具体的例子就是居民收入就是这样一种分布。像日本他们的居民收入大致就是这样一种分布。像美国对高收入人群限制不够严格,他们的曲线就与日本不同是右图这样一个曲线。我们同样可以假定,如果教学干预不严格的话,学生表现也是一个无尺度网络曲线。

  我们来看成人高等教育在线学习就是这样一个无尺度网络曲线。学生人数的增加投入是越来越少。

  在edX平台上也是这样。

  在高职领域也是这样,学生投入的增加学生人数会越来越少,他是一个单调的下降。

  社区教育也是这样。但是我们看到了不一样的东西,在国开开一个在线课程里面强调互动,他会吸引学生来这个平台上,他有粘性,稍微有一点正态分布曲线的样子。

  那这个就是一个更加理想的曲线,他是一个富平台,大部分学生投入到大量时间只有少量的学生不怎么学。这都是因为小班,足够的教师干预带来这样一个的效果。我们通过简单的曲线告诉管理者哪个是好的,哪个是不好的,我们应该采用怎么样的方式进行改进。

  另一个案例就是国开近年招生数量在下降,这是由于各种主观和客观的因素造成的。我主要从客观原因分析,从全国人口总量这个大数据里面来分析,一是高等教育适龄人口开始稀缺,下面这个图中绿线是从八七年以来普高招生情况,普高招生的量逐年上升,但是人口曲线可以看出人口量下降非常快,这与我们国家调整人口政策有一定关系。

  第二个原因,对国开而言,他招的是一个年龄跨度的人口,所以我们从年龄结构的角度来看这么一个问题。原因之二就是国开学生年龄结构与全国人口年龄结构越来越不匹配。这是我们两个曲线,2010年和2013年国开人口年龄结构和全国的人口结构的一个对比。时间部分是2010年的情况,10年的时候这两条实线并不是很匹配,但到了2013年的时候匹配度增加了,如此来讲从2011年到2013年国开招生越来越多.但是我们通过预测发现如果到2020年,国开人口年龄跟不上全国人口老化的速度就会影响招生,所以我们学校也在做相应的调整,在追赶这个老化的速度,我们在做老年开放大学,在做面向企业的招生等等。

  还有一个例子是研究队伍的组建决策。国开是一个成人高校,他的研究力量比较薄弱,我们希望能够在教育方面有所体现,我们希望能像开放办学一样开放搞研究,找人才。找人才我们需要有依据,那依据是什么呢,我们要采集数据,了解在全国到底有哪些人在这方面做的比较好,我们知道做研究就会发论文,发论文就会在CNKI收录。那我们就采集来自CNKI20年的全国从事教育的论文,我们采集到了到2013年的大概11万篇,我们就得到了中高教育学领域最近影响力的学者TOP100。但是这还不足以帮我们去遴选我们需要的专家,我们还进行了一个聚类,聚类原则就是具体原则是,一般来说,一个学科的专家会在自己的心爱的期刊发文章,我们根据期刊特征进行了一个聚类,发现第一类和第二类聚类非常准确。

  第三类和第四个稍微差一点,于是我们可以发现在教育学领域,高等教育学和教育学相对成熟一些,我做这样一个假设,其他的学科可能没有自己本领域的专门期刊,他们可能会发到一些综合性的期刊去。这样我们就可以更好地遴选我们需要的专家。 就这么三个例子,最后想说的是,关于大数据有这样一个调侃,人人都在谈论,但是没有人真正做过,没有人知道怎么做,人人都认为别人在做,我也宣称我也在做,我坚信,如果我在实践中一直做这个事情,可以逐渐逼近大数据的本质,谢谢各位。


标签:

责任编辑:admin
在线客服