机器学习中的统计思维（Python实现）

董平编著

查阅电子书

手机扫码

微信扫一扫

关注微信公众号

因版权原因待上架

类似推荐

编辑推荐

机器学习统计分析，以统计思维推动模型实现。

内容简介

本书以统计思维的视角，揭示监督学习中回归和分类模型的核心思想，帮助读者构建理论体系。具体模型包括线性回归模型、K近邻模型、贝叶斯推断、逻辑回归模型、决策树模型、感知机模型、支持向量机、EM算法和提升方法。

作者简介

编著者董平，上海对外经贸大学统计与信息学院讲师。曾获概率论与数理统计理学博士学位（山东大学2018）、理学学士学位和经济学学士学位（山东大学2012）；美国迈阿密大学访问学者。

主要研究领域为高维数据、假设检验、半监督回归、统计机器学习等。参与多项科研项目和工程类项目，主持多项校级课程建设项目，曾获第三届上海市高校教师教学创新大赛二等奖。

章节目录

版权信息

内容简介

作者简介

前言

符号说明

绪论

0.1 本书讲什么，初衷是什么

0.2 贯穿本书的两大思维模式

0.2.1 提问的思维方式

0.2.2 发散的思维方式

0.3 这本书决定它还想要这样

0.3.1 第一性原理

0.3.2 奥卡姆剃刀原理

0.4 如何使用本书

第1章步入监督学习之旅

1.1 机器学习从数据开始

1.2 监督学习是什么

1.2.1 基本术语

1.2.2 学习过程如同一场科学推理

1.3 如何评价模型的好坏

1.3.1 评价模型的量化指标

1.3.2 拟合能力

1.3.3 泛化能力

1.4 损失最小化思想

1.5 怎样理解模型的性能：方差-偏差折中思想

1.6 如何选择最优模型

1.6.1 正则化：对模型复杂程度加以惩罚

1.6.2 交叉验证：样本的多次重复利用

1.7 本章小结

1.8 习题

第2章线性回归模型

2.1 探寻线性回归模型

2.1.1 诺贝尔奖中的线性回归模型

2.1.2 回归模型的诞生

2.1.3 线性回归模型结构

2.2 最小二乘法

2.2.1 回归模型用哪种损失：平方损失

2.2.2 如何估计模型参数：最小二乘法

2.3 线性回归模型的预测

2.3.1 一元线性回归模型的预测

2.3.2 多元线性回归模型的预测

2.4 拓展部分：岭回归与套索回归

2.4.1 岭回归

2.4.2 套索回归

2.5 案例分析——共享单车数据集

2.6 本章小结

2.7 习题

第3章 K近邻模型

3.1 邻友思想

3.2 K近邻算法

3.2.1 聚合思想

3.2.2 K近邻模型的具体算法

3.2.3 K近邻算法的三要素

3.2.4 K近邻算法的可视化

3.3 最近邻分类器的误差率

3.4 k维树

3.4.1 k维树的构建

3.4.2 k维树的搜索

3.5 拓展部分：距离度量学习的K近邻分类器

3.6 案例分析——鸢尾花数据集

3.7 本章小结

3.8 习题

第4章贝叶斯推断

4.1 贝叶斯思想

4.1.1 什么是概率

4.1.2 从概率到条件概率

4.1.3 贝叶斯定理

4.2 贝叶斯分类器

4.2.1 贝叶斯分类

4.2.2 朴素贝叶斯分类

4.3 如何训练贝叶斯分类器

4.3.1 极大似然估计：概率最大化思想

4.3.2 贝叶斯估计：贝叶斯思想

4.4 常用的朴素贝叶斯分类器

4.4.1 离散属性变量下的朴素贝叶斯分类器

4.4.2 连续特征变量下的朴素贝叶斯分类器

4.5 拓展部分

4.5.1 半朴素贝叶斯

4.5.2 贝叶斯网络

4.6 案例分析——蘑菇数据集

4.7 本章小结

4.8 习题

4.9 阅读时间：贝叶斯思想的起源

第5章逻辑回归模型

5.1 一切始于逻辑函数

5.1.1 逻辑函数

5.1.2 逻辑斯谛分布

5.1.3 逻辑回归

5.2 逻辑回归模型的学习

5.2.1 加权最小二乘法

5.2.2 极大似然法

5.3 逻辑回归模型的学习算法

5.3.1 梯度下降法

5.3.2 牛顿法

5.4 拓展部分

5.4.1 拓展1：多分类逻辑回归模型

5.4.2 拓展2：非线性逻辑回归模型

5.5 案例分析——离职数据集

5.6 本章小结

5.7 习题

5.8 阅读时间：牛顿法是牛顿提出的吗

第6章最大熵模型

6.1 问世间熵为何物

6.1.1 热力学熵

6.1.2 信息熵

6.2 最大熵思想

6.2.1 离散随机变量的分布

6.2.2 连续随机变量的分布

6.3 最大熵模型的学习问题

6.3.1 最大熵模型的定义

6.3.2 最大熵模型的原始问题与对偶问题

6.3.3 最大熵模型的学习

6.4 模型学习的最优化算法

6.4.1 最速梯度下降法

6.4.2 拟牛顿法：DFP算法和BFGS算法

6.4.3 改进的迭代尺度法

6.5 案例分析——汤圆小例子

6.6 本章小结

6.7 习题

6.8 阅读时间：奇妙的对数

第7章决策树模型

7.1 决策树中蕴含的基本思想

7.1.1 什么是决策树

7.1.2 决策树的基本思想

7.2 决策树的特征选择

7.2.1 错分类误差

7.2.2 基于熵的信息增益和信息增益比

7.2.3 基尼不纯度

7.2.4 比较错分类误差、信息熵和基尼不纯度

7.3 决策树的生成算法

7.3.1 ID3算法

7.3.2 C4.5算法

7.3.3 CART算法

7.4 决策树的剪枝过程

7.4.1 预剪枝

7.4.2 后剪枝

7.5 拓展部分：随机森林

7.6 案例分析——帕尔默企鹅数据集

7.7 本章小结

7.8 习题

7.9 阅读时间：经济学中的基尼指数

第8章感知机模型

8.1 感知机制——从逻辑回归到感知机

8.2 感知机的学习

8.3 感知机的优化算法

8.3.1 原始形式算法

8.3.2 对偶形式算法

8.4 案例分析——鸢尾花数据集

8.5 本章小结

8.6 习题

第9章支持向量机

9.1 从感知机到支持向量机

9.2 线性可分支持向量机

9.2.1 线性可分支持向量机与最大间隔算法

9.2.2 对偶问题与硬间隔算法

9.3 线性支持向量机

9.3.1 线性支持向量机的学习问题

9.3.2 对偶问题与软间隔算法

9.3.3 线性支持向量机之合页损失

9.4 非线性支持向量机

9.4.1 核变换的根本——核函数

9.4.2 非线性可分支持向量机

9.4.3 非线性支持向量机

9.5 SMO优化方法

9.5.1 “失败的”坐标下降法

9.5.2 “成功的”SMO算法

9.6 案例分析——电离层数据集

9.7 本章小结

9.8 习题

第10章 EM算法

10.1 极大似然法与EM算法

10.1.1 具有缺失数据的豆花小例子

10.1.2 具有隐变量的硬币盲盒例子

10.2 EM算法的迭代过程

10.2.1 EM算法中的两部曲

10.2.2 EM算法的合理性

10.3 EM算法的应用

10.3.1 高斯混合模型

10.3.2 隐马尔可夫模型

10.4 本章小结

10.5 习题

第11章提升方法

11.1 提升方法（Boosting）是一种集成学习方法

11.1.1 什么是集成学习

11.1.2 强可学习与弱可学习

11.2 起步于AdaBoost算法

11.2.1 两大内核：前向回归和可加模型

11.2.2 AdaBoost的前向分步算法

11.2.3 AdaBoost分类算法

11.2.4 AdaBoost分类算法的训练误差

11.3 提升树和GBDT算法

11.3.1 回归提升树

11.3.2 GDBT算法

11.4 拓展部分：XGBoost算法

11.5 案例分析——波士顿房价数据集

11.6 本章小结

11.7 习题

参考文献

机器学习中的统计思维（Python 实现）小册子

第1章微积分小工具

1.1 凸函数与凹函数

1.2 几个重要的不等式

1.3 常见的求导公式与求导法则

1.4 泰勒公式

1.5 费马原理

第2章线性代数小工具

2.1 几类特殊的矩阵

2.2 矩阵的基本运算

2.3 二次型的矩阵表示

第3章概率统计小工具

3.1 随机变量

3.2 概率分布

3.3 数学期望和方差

3.4 常用的几种分布

3.5 小技巧——从二项分布到正态分布的连续修正

第4章优化小工具

4.1 梯度下降法

4.2 牛顿法

4.3 拟牛顿法

4.4 坐标下降法

4.5 拉格朗日对偶思想

机器学习中的统计思维（Python实现）是2023年由清华大学出版社出版,作者董平编著。

得书感谢您对《机器学习中的统计思维（Python实现）》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。

得书 - 好书推荐、正版图书免费阅读