通过本课程的学习,学生能够理解数据库技术的发展为何导致数据挖掘、以及数据挖掘潜在应用的重要性;掌握数据仓库和多维数据结构,OLAP(联机分析处理)的实现以及数据仓库与数据挖掘的关系;熟悉数据挖掘之前的数据预处理技术;掌握数据挖掘技术的关联、聚类、分类、序列分析等常用算法的原理和算法;掌握经典数据挖掘算法的Python编程实践
本课程由青岛大学数据科学与软件工程学院与计算机科学技术学院经验丰富的教师团队主讲,所有主讲教师均在大数据领域工作多年,积累了丰硕的教学与科研成果。通过该课程的学习,学生能够为将来从事数据仓库的规划和实施以及数据挖掘技术的研究工作打下一定的基础。
课程大纲
数据挖掘导论
1.1数据挖掘的社会需求
1.2数据挖掘的定义
1.3数据挖掘的分类
1.4数据挖掘的步骤
1.5数据挖掘的体系结构与其他技术的异同
数据挖掘导论单元测试
数据仓库与联机分析处理
2.1数据仓库与数据库的区别
2.2什么是数据仓库
2.3数据仓库的系统结构
2.4数据仓库的数据组织形式
2.5数据仓库的数据模型
2.6什么是联机分析处理
2.7OLAP的多维数据存储
2.8OLAP的分类
数据仓库与OLAP单元测试
数据预处理
3.1为什么要数据预处理
3.2数据清理
3.3数据集成与数据变换
3.4数据归约
3.5数据压缩与数值归约
3.6数据离散化
3.7Python数据预处理
数据预处理单元测试
主成分分析
4.1什么是PCA
4.2PCA原理推导(1)
4.3PCA原理推导(2)
关联规则挖掘算法Apriori与FP-Growth
5.1什么是关联规则挖掘
5.2关联规则挖掘示例
5.3Apriori算法
5.4频繁项集生成规则
5.5Apriori算法分析与改进
5.6FP-Growth算法
5.7关联规则挖掘Python实践
多值关联规则与多层关联规则
6.1什么是多值关联规则
6.2多值关联规则挖掘中的连续属性划分
6.3多值关联规则合并
6.4从下向上的频繁项集搜索方式
6.5自上向下的频繁项集搜索方式
6.6多层关联规则的社会需求
6.7同层关联规则挖掘算法
项约束型关联规则
7.1什么是项约束性关联规则挖掘
7.2项约束性关联规则挖掘算法Direct
7.3项约束性关联规则挖掘Direct+
关联分析单元测试
分类分析与ID3决策树算法
8.1分类分析的基本思路
8.2决策树分类模型
8.3ID3决策树算法
8.4ID3决策树算法分析
C4.5决策树算法
9.1C4.5算法的改进之处
9.2信息增益比的计算方式
9.3C4.5算法处理连续属性
9.4C4.5算法处理缺失值策略
9.5C4.5算法中的交叉验证
9.6C4.5算法构建决策树示例
9.7决策树算法的Python实践
梯度提升决策树
10.1梯度提升决策树的例子
10.2梯度提升决策树算法
SLIQ与随机森林
11.1SLIQ算法思路
11.2SLIQ如何处理连续属性
11.3SLIQ算法构建判定树
11.4随机森林的基本思想
11.5CART构建决策树算法
11.6随机森林的投票机制
11.7随机森林的Python实践
决策树单元测试
最近邻KNN与支持向量机SVM
12.1最近邻分类
12.2线性支持向量机
12.3线性支持向量机求解
12.4线性不可分的支持向量机和非线性支持向量机
贝叶斯分类
13.1朴素贝叶斯分类算法
13.2贝叶斯信念网络的基本结构
13.3联合概率计算方法
13.4事件独立的几种情况
13.5贝叶斯信念网络推理1
13.6贝叶斯信念网络推理2
13.7朴素贝叶斯的Python实践
贝叶斯单元测试
划分聚类分析
14.1什么是聚类分析
14.2距离与相似性度量
14.3划分聚类Kmeans算法
14.4K中心点算法思想
14.5K中心点PAM算法示例
14.6Kmeans算法的Python实践
层次聚类分析
15.1层次聚类的基本思想
15.2距离测算方法1
15.3距离测算方法2
15.4Birch层次聚类算法基本原理
15.5Birch层次聚类中簇直径D的计算方式
15.6Birch层次聚类树的构建
15.7Birch层次聚类的Python实践
密度聚类分析
16.1密度聚类的基本思路
16.2DBSCAN算法的基本概念
16.3DBSCAN算法的实现流程
16.4DBSCAN算法性能分析
16.5OPTICS密度聚类基本思想
16.6OPTICS密度聚类算法的实现过程
16.7密度聚类OPTICS算法描述
16.8密度聚类的Python实践
聚类分析单元测试
高斯混合模型
17.1为什么需要高斯混合模型
17.2高斯混合模型推导
17.3高斯混合模型求解——EM算法
序列模式挖掘
18.1序列模式挖掘的基本原理
18.2序列模式挖掘AprioriAll算法的实现过程
18.3序列模式挖掘AprioriSome算法
18.4序列模式挖掘DynamicSome算法
18.5有时间约束的序列模式挖掘GSP算法原理
18.6有时间约束的序列模式挖掘GSP算法示例