编辑推荐
这本书主要面向各个领域有数据分析需求的学生和从业人员。
内容简介
《大数据挖掘与统计机器学习》介绍数据挖掘与统计机器学习领域最常用的模型和算法,包括最基础的线性回归和线性分类方法,以及模型选择和模型评价的概念和方法,进而介绍非线性的回归和分类方法(包括决策树与组合方法、支持向量机、神经网络以及在此基础上发展的深度学习方法)。最后介绍无监督的学习中的聚类方法和业界广泛使用的推荐系统方法。除了方法的理论讲解之外,我们给出了每种方法的R语言实现,以及应用Python语言实现深度学习和支持向量机两种方法。《大数据挖掘与统计机器学习》的一个亮点是最后一章给出的两个大数据案例,数据量均在10G左右。
作者简介
作者吕晓玲,吉林省吉林市人。现任中国人民大学统计学院副教授,北京五校联合大数据分析硕士培养协同创新平台总协调人。本科与硕士毕业于南开大学数学系概率统计专业,博士毕业于香港城市大学管理科学系。曾经是奥地利约翰开普勒大学应用统计系以及美国加州大学伯克利分校统计系访问学者。一直从事数据挖掘和统计机器学习领域的理论研究,及其在消费者行为方面的应用研究。在数据挖掘以及市场营销方面的项目涉及的领域包括银行、电子商务、交通、教育、广播电视、移动互联网等。
章节目录
版权信息
总序
前言
第1章 概述
1.1 名词演化
1.2 基本内容
1.3 数据智慧
第2章 线性回归方法
2.1 多元线性回归
2.1.1 多元线性回归模型
2.1.2 多元线性回归的相关诊断
2.1.3 自变量的选择与逐步回归
2.2 压缩方法:岭回归与Lasso
2.2.1 岭回归
2.2.2 Lasso回归
2.2.3 一张图看懂岭回归和Lasso回归
2.2.4 从贝叶斯角度再看岭回归和Lasso回归
2.3 Lasso 模型的求解与理论性质
2.3.1 最小角回归
2.3.2 SCAD回归与Oracle性质
2.4 损失函数加罚的建模框架
2.4.1 损失函数的概念
2.4.2 最小一乘回归与分位回归
2.4.3 其他罚函数
2.5 上机实践
2.5.1 糖尿病数据
2.5.2 恩格尔数据
第3章 线性分类方法
3.1 分类问题综述与评价准则
3.1.1 分类问题
3.1.2 分类问题评价准则
3.2 Logistic回归
3.2.1 基本模型
3.2.2 估计和检验
3.2.3 正则化的Logistic回归
3.3 线性判别
3.3.1 线性判别方法
3.3.2 二次判别函数和正则化判别函数
3.3.3 Logistic回归与线性判别方法的比较
3.4 上机实践
3.4.1 心脏病数据
第4章 模型评价与选择
4.1 基本概念
4.1.1 各种误差的定义
4.1.2 偏差-方差分解
4.2 理论方法
4.2.1 Cp 统计量
4.2.2 AIC准则
4.2.3 BIC准则
4.2.4 有效参数个数
4.3 数据重利用方法
4.3.1 交叉验证法
4.3.2 自助法
4.4 上机实践
4.4.1 模拟研究1
4.4.2 模拟研究2
第5章 决策树与组合方法
5.1 决策树
5.1.1 决策树的基本知识
5.1.2 决策树的建模过程
5.1.3 需要说明的一些问题
5.2 Bagging
5.2.1 分类、回归问题的Bagging算法
5.2.2 理论分析
5.2.3 Out-of-bag估计
5.2.4 讨论
5.3 Boosting
5.3.1 AdaBoost算法
5.3.2 可加模型:从统计的角度看AdaBoost
5.3.3 梯度下降算法
5.3.4 分类问题的不同损失函数及LogitBoost算法
5.3.5 回归问题的L2-Boosting算法
5.3.6 讨论
5.4 随机森林
5.4.1 基本算法
5.4.2 理论分析
5.5 上机实践
5.5.1 乳腺癌数据
5.5.2 cpu数据
5.5.3 Boosting方法的进一步研究
第6章 神经网络与深度学习
6.1 神经网络
6.1.1 人工神经元的模型
6.1.2 人工神经网络的结构
6.1.3 人工神经网络的学习
6.1.4 感知器
6.2 深度学习
6.2.1 受限玻尔兹曼机
6.2.2 深度信念网
6.3 上机实践
6.3.1 建筑物热负荷数据
6.3.2 红葡萄酒品质数据
6.3.3 手写数字识别问题
6.3.4 深度学习方法的Python研究
第7章 支持向量机
7.1 线性可分支持向量机
7.1.1 简介
7.1.2 模型
7.2 软间隔支持向量机
7.2.1 模型
7.2.2 求解软间隔支持向量机
7.3 一些拓展
7.3.1 非线性可分与核函数
7.3.2 从损失函数加罚的角度再看SVM
7.3.3 支持向量机回归
7.4 上机实践
7.4.1 Glass数据
7.4.2 LIBSVM简介及其Python实现
第8章 聚类分析
8.1 基于距离的聚类
8.1.1 距离(相似度)的定义
8.1.2 层次聚类
8.1.3 K均值聚类
8.2 基于模型和密度的聚类
8.2.1 EM聚类
8.2.2 DBSCAN聚类
8.3 稀疏聚类
8.3.1 基本框架
8.3.2 稀疏K均值聚类
8.3.3 稀疏层次聚类
8.4 双向聚类
8.5 上机实践
8.5.1 Iris数据
8.5.2 Musk数据
8.5.3 基因数据
第9章 推荐系统
9.1 基于邻居的推荐
9.1.1 基于邻居的预测算法
9.1.2 基于邻居的预测的三要素
9.2 潜在因子与矩阵分解算法
9.2.1 基于矩阵分解的推荐算法
9.2.2 基于隐因子的概率矩阵分解推荐算法
9.3 上机实践
9.3.1 Jester数据集
9.3.2 更多推荐算法数据源
第10章 大数据案例分析
10.1 智能手机用户监测数据案例分析
10.1.1 数据简介
10.1.2 单机实现
10.1.3 分布式实现
10.2 美国航空数据案例分析
10.2.1 数据简介
10.2.2 单机实现
10.2.3 分布式实现
参考文献
大数据挖掘与统计机器学习是2016年由中国人民大学出版社出版,作者吕晓玲。
得书感谢您对《大数据挖掘与统计机器学习》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。