用Python动手学统计学

用Python动手学统计学

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

文科生也能学会的统计学入门书,为你夯实数据分析基本功。

内容简介

本书是面向零基础读者的统计学入门书,对同一个知识点分别使用文字、公式和Python示例代码加以讲解,循序渐进地介绍了统计学和Python的基础知识、使用Python进行统计分析的方法、正态线性模型和广义线性模型等统计模型,以及机器学习等。

通过阅读本书,读者不仅可以通过书中例子深刻理解统计学术语、统计分析方法和预测方法等,还可以学到十分前沿的机器学习知识,以及如何使用Python实现数据可视化和建模等。

本书适合统计学和Python初学者以及对数据科学和机器学习感兴趣的读者使用,也可作为高等院校计算机、统计等专业学生的入门书。

作者简介

作者马场真哉,出生于日本神户市,毕业于北海道大学。经常在个人网站Logics of Blue分享统计学、数据分析与编程知识。

著有《决策分析和预测的活用:从基础理论懂啊Python实现》《R语言编程和数据分析》《基于贝叶斯统计建模的数据分析入门:使用R和Stan》等。

章节目录

版权信息

版权声明

说明

前言

第1章 统计学基础

1-1 统计学

1-1-1 统计学的目标①:描述现有数据

1-1-2 统计学的目标②:估计未知数据

1-1-3 术语 样本与总体

1-1-4 1-2 节及之后的内容

1-2 获取样本的过程

1-2-1 术语 随机变量

1-2-2 湖中钓鱼的例子

1-2-3 从总体中获取样本的过程

1-2-4 术语 样本值

1-2-5 术语 抽样

1-2-6 术语 简单随机抽样

1-2-7 术语 样本容量

1-2-8 术语 普查与抽样调查

1-3 抽样过程的抽象描述

1-3-1 符号 概率

1-3-2 术语 概率分布

1-3-3 术语 服从概率分布

1-3-4 术语 总体分布

1-3-5 作为抽样过程的总体分布

1-3-6 无限总体的含义与总体分布

1-3-7 总结:抽样过程

1-3-8 补充 瓮模型

1-4 描述统计基础

1-4-1 术语 定量变量

1-4-2 术语 离散变量与连续变量

1-4-3 术语 分类变量

1-4-4 术语 组、组中值

1-4-5 术语 频率、频率分布、相对频率

1-4-6 术语 累积频数、累积频率

1-4-7 术语 直方图

1-4-8 术语 统计量

1-4-9 术语 均值

1-4-10 术语 期望值

1-4-11 术语 方差

1-4-12 补充 均值、方差与数据范围

1-5 总体分布的推断

1-5-1 总体分布与总体的频率分布

1-5-2 更现实一些的湖中钓鱼

1-5-3 做假设

1-6 概率质量函数与概率密度函数

1-6-1 术语 概率质量函数

1-6-2 术语 概率密度

1-6-3 补充 积分与加法的关系

1-6-4 术语 概率密度函数

1-6-5 术语 正态分布

1-6-6 术语 参数(概率分布的参数)

1-6-7 各种各样的概率分布

1-6-8 推断总体分布 = 确定分布 + 估计参数

1-6-9 把样本的统计量看作参数的估计值

1-6-10 补充 估计误差

1-6-11 总结:统计学基础

1-7 统计量的计算

1-7-1 为什么要使用数学式

1-7-2 符号 样本

1-7-3 符号 均值

1-7-4 符号 期望值

1-7-5 术语 总体均值与样本均值

1-7-6 符号 样本方差

1-7-7 术语 无偏方差

1-7-8 为什么样本方差会偏离

1-7-9 术语 标准差

1-8 概率论基础

1-8-1 术语 集合

1-8-2 术语 元素

1-8-3 集合的两种表示方法

1-8-4 术语 子集

1-8-5 术语 维恩图

1-8-6 术语 交集与并集

1-8-7 术语 差集

1-8-8 术语 空集

1-8-9 术语 全集

1-8-10 术语 补集

1-8-11 术语 样本点、样本空间、事件

1-8-12 术语 互斥事件

1-8-13 通过掷骰子可以联想到的各种概率分布

1-8-14 概率的公理化定义

1-8-15 用频率解释概率

1-8-16 主观概率

1-8-17 术语 概率的加法公式

1-8-18 术语 条件概率

1-8-19 术语 概率的乘法公式

1-8-20 术语 独立事件

1-9 随机变量与概率分布

1-9-1 随机变量与样本值

1-9-2 离散型概率分布与概率质量函数

1-9-3 概率密度

1-9-4 连续型概率分布与概率密度函数

1-9-5 概率的总和与概率密度的积分

1-9-6 补充 积分与面积的关系

1-9-7 正态分布的概率密度函数

1-9-8 符号 服从概率分布

1-9-9 独立同分布

1-9-10 使用正态分布的概率密度函数计算概率的方法

1-9-11 使用概率密度计算期望值的方法

第2章 Python 与 Jupyter Notebook 基础

2-1 环境搭建

2-1-1 什么是 Python

2-1-2 Python 的版本

2-1-3 Python 与 Anaconda

2-1-4 Jupyter Notebook

2-1-5 下载和安装

2-1-6 补充 Python 编程术语

2-2 认识 Jupyter Notebook

2-2-1 启动 Jupyter Notebook

2-2-2 创建新文件

2-2-3 执行代码

2-2-4 保存执行结果

2-2-5 Markdown 的用法

2-2-6 退出 Jupyter Notebook

2-3 Python 编程基础

2-3-1 实现 四则运算

2-3-2 实现 编写注释

2-3-3 实现 数据类型

2-3-4 实现 比较运算符

2-3-5 实现 变量

2-3-6 实现 函数

2-3-7 实现 类与实例

2-3-8 实现 基于 if 语句的程序分支

2-3-9 实现 基于 for 语句的循环

2-3-10 编写易用程序的窍门

2-4 认识 numpy 与 pandas

2-4-1 导入用于分析的功能s

2-4-2 numpy 与 pandas

2-4-3 实现 列表

2-4-4 术语 行与列

2-4-5 实现 数组

2-4-6 实现 生成等差数列的方法

2-4-7 实现 多种生成数组的方式

2-4-8 实现 切片

2-4-9 实现 数据帧

2-4-10 实现 读取文件中的数据

2-4-11 实现 连接数据帧

2-4-12 实现 数据帧的列操作

2-4-13 实现 数据帧的行操作

2-4-14 补充 序列

2-4-15 补充 函数文档

第3章 使用 Python 进行数据分析

3-1 使用 Python 进行描述统计:单变量

3-1-1 统计分析与 scipy

3-1-2 单变量数据的操作

3-1-3 实现 总和与样本容量

3-1-4 实现 均值(期望值)

3-1-5 实现 样本方差

3-1-6 实现 无偏方差

3-1-7 实现 标准差

3-1-8 补充 标准化

3-1-9 补充 其他统计量

3-1-10 实现 scipy.stats 与四分位数

3-2 使用 Python 进行描述统计:多变量

3-2-1 术语 整洁数据

3-2-2 术语 杂乱数据

3-2-3 术语 列联表(交叉分类表)

3-2-4 多变量数据的管理

3-2-5 实现 求各分组的统计量

3-2-6 实现 列联表

3-2-7 术语 协方差

3-2-8 术语 协方差矩阵

3-2-9 实现 协方差

3-2-10 实现 协方差矩阵

3-2-11 术语 皮尔逊积矩相关系数

3-2-12 术语 相关矩阵

3-2-13 实现 皮尔逊积矩相关系数

3-2-14 补充 相关系数无效的情况

3-3 基于 matplotlib、seaborn 的数据可视化

3-3-1 Python 中的数据可视化

3-3-2 实现 数据可视化的环境准备

3-3-3 实现 用 pyplot 绘制折线图

3-3-4 实现 用 seaborn 和 pyplot 绘制折线图

3-3-5 实现 用 seaborn 绘制直方图

3-3-6 实现 通过核密度估计将直方图平滑化

3-3-7 实现 两个变量的直方图

3-3-8 将多变量可视化的代码

3-3-9 实现 箱形图

3-3-10 实现 小提琴图

3-3-11 实现 条形图

3-3-12 实现 散点图

3-3-13 实现 散点图矩阵

3-4 用 Python 模拟抽样

3-4-1 环境准备

3-4-2 抽样过程

3-4-3 在只有 5 条鱼的湖中抽样

3-4-4 术语 随机数

3-4-5 术语 放回抽样、不放回抽样

3-4-6 从鱼较多的湖中抽样

3-4-7 总体分布

3-4-8 对比总体分布和正态分布的概率密度函数

3-4-9 抽样过程的抽象描述

3-4-10 补充 有限总体校正

3-4-11 补充 假设总体服从正态分布是否恰当

3-5 样本统计量的性质

3-5-1 术语 试验

3-5-2 术语 样本分布

3-5-3 导入所需的库

3-5-4 多次计算样本均值

3-5-5 样本均值的均值与总体均值相近

3-5-6 样本容量越大,样本均值越接近总体均值

3-5-7 定义用来计算样本均值的函数

3-5-8 不同样本容量所得的样本均值的分布

3-5-9 样本均值的标准差小于总体标准差

3-5-10 术语 标准误差

3-5-11 标准误差的直观解释

3-5-12 样本方差的均值偏离总体方差

3-5-13 采用无偏方差消除偏离

3-5-14 样本容量越大,其无偏方差越接近总体方差

3-5-15 术语 无偏性

3-5-16 术语 一致性

3-5-17 较好的参数估计量

3-5-18 补充 大数定律

3-5-19 补充 中心极限定理

3-6 正态分布及其应用

3-6-1 导入函数库

3-6-2 实现 概率密度

3-6-3 样本小于等于某值的比例

3-6-4 术语 累积分布函数

3-6-5 实现 累积分布函数

3-6-6 术语 左侧概率与百分位数

3-6-7 实现 百分位数

3-6-8 术语 标准正态分布

3-6-9 术语 t 值

3-6-10 t 值的样本分布

3-6-11 术语 t 分布

3-6-12 实现 t 分布

3-7 参数估计

3-7-1 本节任务

3-7-2 环境准备

3-7-3 术语 点估计

3-7-4 实现 点估计

3-7-5 术语 区间估计

3-7-6 术语 置信水平、置信区间

3-7-7 术语 置信界限

3-7-8 置信区间的计算

3-7-9 实现 区间估计

3-7-10 补充 置信区间的求解细节

3-7-11 决定置信区间大小的因素

3-7-12 区间估计结果的解读

3-8 假设检验

3-8-1 术语 假设检验

3-8-2 单样本 t 检验

3-8-3 显著性差异

3-8-4 t 检验的直观解释

3-8-5 均值差异大不代表存在显著性差异

3-8-6 t 值

3-8-7 假设检验的结构:零假设与备择假设

3-8-8 术语 p 值

3-8-9 术语 显著性水平

3-8-10 t 检验与 t 分布的关系

3-8-11 术语 单侧检验与双侧检验

3-8-12 p 值的计算

3-8-13 t 检验的实现:环境准备

3-8-14 t 检验的实现:计算 t 值

3-8-15 t 检验的实现:计算 p 值

3-8-16 通过模拟实验计算 p 值

3-9 均值差的检验

3-9-1 双样本 t 检验

3-9-2 配对样本 t 检验

3-9-3 环境准备

3-9-4 实现 配对样本 t 检验

3-9-5 独立样本 t 检验

3-9-6 实现 独立样本 t 检验

3-9-7 补充 独立样本 t 检验(同方差)

3-9-8 补充 p 值操纵

3-10 列联表检验

3-10-1 使用列联表的好处

3-10-2 本节例题

3-10-3 计算期望频数

3-10-4 计算观测频数和期望频数的差

3-10-5 实现 计算 p 值

3-10-6 实现 列联表检验

3-11 检验结果的解读

3-11-1 p 值小于 0.05 时的表述方法

3-11-2 p 值大于 0.05 时的表述方法

3-11-3 关于假设检验的常见误区

3-11-4 p 值小不代表差异大

3-11-5 p 值大于 0.05 不代表没有差异

3-11-6 术语 第一类错误与第二类错误

3-11-7 术语 假设检验的非对称性

3-11-8 在检验之前确定显著性水平

3-11-9 补充 统计模型的选择

3-11-10 假设检验有什么用

3-11-11 假设是否正确

第4章 统计模型基础

4-1 统计模型

4-1-1 术语 模型

4-1-2 术语 建模

4-1-3 模型有什么用

4-1-4 简化复杂的世界

4-1-5 从某个角度观察复杂的现象

4-1-6 术语 数学模型

4-1-7 术语 概率模型

4-1-8 术语 统计模型

4-1-9 概率分布与统计模型

4-1-10 基于统计模型的预测

4-1-11 统计模型与经典数据分析的对比

4-1-12 统计模型应用

4-2 建模方法

4-2-1 本节例题

4-2-2 术语 响应变量和解释变量

4-2-3 术语 参数模型

4-2-4 术语 非参数模型

4-2-5 术语 线性模型

4-2-6 术语 系数与权重

4-2-7 建模 = 模型选择 + 参数估计

4-2-8 线性模型的建模方法

4-2-9 术语 变量选择

4-2-10 术语 空模型

4-2-11 通过假设检验选择变量

4-2-12 通过信息量准则选择变量

4-2-13 模型评估

4-2-14 补充 在建模之前确定分析目的

4-3 数据表示与模型名称

4-3-1 术语 正态线性模型

4-3-2 术语 回归分析(经典术语)

4-3-3 术语 多元回归分析(经典术语)

4-3-4 术语 方差分析(经典术语)

4-3-5 术语 广义线性模型

4-3-6 补充 机器学习中的叫法

4-4 参数估计:最大似然估计

4-4-1 为什么要学习参数估计

4-4-2 术语 似然

4-4-3 术语 似然函数

4-4-4 术语 对数似然

4-4-5 术语 对数的性质

4-4-6 术语 最大似然法

4-4-7 术语 最大似然估计量

4-4-8 术语 最大对数似然

4-4-9 服从正态分布的数据的似然

4-4-10 术语 多余参数

4-4-11 正态线性模型的似然

4-4-12 补充 最大似然法计算举例

4-4-13 补充 最大似然估计量的性质

4-5 参数估计:最小化损失

4-5-1 术语 损失函数

4-5-2 术语 残差

4-5-3 为什么不把残差之和作为损失指标

4-5-4 术语 残差平方和

4-5-5 术语 最小二乘法

4-5-6 补充 最小二乘法与最大似然法的关系

4-5-7 术语 误差函数

4-5-8 多种损失函数

4-6 预测精度的评估与变量选择

4-6-1 术语 拟合精度与预测精度

4-6-2 术语 过拟合

4-6-3 变量选择的意义

4-6-4 术语 泛化误差

4-6-5 术语 训练集与测试集

4-6-6 术语 交叉验证

4-6-7 术语 赤池信息量准则

4-6-8 术语 相对熵

4-6-9 最小化相对熵与平均对数似然

4-6-10 AIC 与平均对数似然中的偏离

4-6-11 AIC 与交叉验证

4-6-12 使用 AIC 进行变量选择

4-6-13 用变量选择代替假设检验

4-6-14 使用假设检验还是 AIC

第5章 正态线性模型

5-1 含有单个连续型解释变量的模型(一元回归)

5-1-1 环境准备

5-1-2 实现 读入数据并绘制其图形

5-1-3 建模

5-1-4 实现 使用 statsmodels 实现模型化

5-1-5 实现 打印估计结果并检验系数

5-1-6 关于 summary 函数的输出的说明

5-1-7 实现 使用 AIC 进行模型选择

5-1-8 术语 回归直线

5-1-9 实现 用 seaborn 绘制回归直线

5-1-10 实现 使用模型进行预测

5-1-11 实现 获取残差

5-1-12 术语 决定系数

5-1-13 实现 决定系数

5-1-14 术语 修正决定系数

5-1-15 实现 修正决定系数

5-1-16 实现 残差的直方图和散点图

5-1-17 术语 分位图

5-1-18 实现 分位图

5-1-19 根据 summary 函数的输出分析残差

5-2 方差分析

5-2-1 本节例题

5-2-2 什么时候应该使用方差分析

5-2-3 术语 多重假设检验

5-2-4 方差分析的直观理解:F 比

5-2-5 显著性差异与小提琴图

5-2-6 方差分析的直观理解:分离效应和误差

5-2-7 术语 组间差异与组内差异

5-2-8 环境准备

5-2-9 生成数据并可视化

5-2-10 实现 方差分析①:计算组间偏差平方和与组内偏差平方和

5-2-11 实现 方差分析②:计算组间方差与组内方差

5-2-12 实现 方差分析③:计算 p 值

5-2-13 解释变量为分类变量的正态线性模型

5-2-14 术语 虚拟变量

5-2-15 实现 statsmodels 中的方差分析

5-2-16 术语 方差分析表

5-2-17 模型系数的含义

5-2-18 使用模型分离效应和误差

5-2-19 回归模型中的方差分析

5-3 含有多个解释变量的模型

5-3-1 环境准备

5-3-2 实现 数据可视化

5-3-3 错误的分析:建立只有 1 个变量的模型

5-3-4 分析解释变量之间的关系

5-3-5 实现 多解释变量的模型

5-3-6 错误的分析:使用普通方差分析

5-3-7 实现 回归系数的 t 检验

5-3-8 术语 Type II ANOVA

5-3-9 模型选择与方差分析

5-3-10 Type II ANOVA 与调整平方和

5-3-11 实现 Type II ANOVA

5-3-12 Type II ANOVA 的含义

5-3-13 实现 变量选择与模型选择

5-3-14 使用 AIC 进行变量选择

5-3-15 补充 多重共线性

第6章 广义线性模型

6-1 各种概率分布

6-1-1 术语 二值随机变量

6-1-2 术语 伯努利试验

6-1-3 术语 成功概率

6-1-4 术语 伯努利分布

6-1-5 术语 二项分布

6-1-6 二项分布的应用

6-1-7 二项分布的概率质量函数

6-1-8 环境准备

6-1-9 实现 二项分布

6-1-10 术语 泊松分布

6-1-11 泊松分布的应用

6-1-12 泊松分布的概率质量函数

6-1-13 补充 二项分布与泊松分布的关系

6-1-14 实现 泊松分布

6-1-15 补充 其他概率分布

6-1-16 补充 指数分布族

6-2 广义线性模型基础

6-2-1 广义线性模型的组成

6-2-2 概率分布

6-2-3 术语 线性预测算子

6-2-4 术语 联系函数

6-2-5 联系函数与概率分布的关系

6-2-6 广义线性模型的参数估计

6-2-7 补充 广义线性模型的检验方法

6-3 logistic 回归

6-3-1 术语 logistic 回归

6-3-2 本节例题

6-3-3 二值分类问题

6-3-4 术语 logit 函数

6-3-5 术语 反函数

6-3-6 术语 logistic 函数

6-3-7 logistic 函数的性质

6-3-8 logistic 回归的推导

6-3-9 logistic 回归的似然函数

6-3-10 环境准备

6-3-11 实现 读取数据并可视化

6-3-12 实现 logistic 回归

6-3-13 实现 logistic 回归的结果

6-3-14 实现 模型选择

6-3-15 实现 回归曲线

6-3-16 实现 预测成功概率

6-3-17 术语 优势

6-3-18 术语 优势比

6-3-19 logistic 回归的系数与优势比的关系

6-4 广义线性模型的评估

6-4-1 环境准备

6-4-2 术语 皮尔逊残差

6-4-3 皮尔逊残差的含义

6-4-4 实现 皮尔逊残差

6-4-5 术语 模型偏差

6-4-6 模型偏差的含义

6-4-7 补充 模型偏差与似然比检验

6-4-8 术语 偏差残差

6-4-9 实现 偏差残差

6-4-10 补充 交叉熵误差

6-5 泊松回归

6-5-1 术语 泊松回归

6-5-2 本节例题

6-5-3 泊松回归的推导

6-5-4 环境准备

6-5-5 实现 泊松回归

6-5-6 实现 模型选择

6-5-7 实现 回归曲线

6-5-8 回归系数的含义

第7章 统计学与机器学习

7-1 机器学习基础

7-1-1 术语 机器学习

7-1-2 术语 有监督学习

7-1-3 术语 无监督学习

7-1-4 补充 强化学习

7-1-5 补充 规则学习

7-1-6 统计学与机器学习无法彻底分离

7-1-7 统计学注重过程,机器学习注重结果

7-2 正则化、Ridge 回归与 Lasso 回归

7-2-1 术语 正则化

7-2-2 术语 Ridge 回归

7-2-3 术语 Lasso 回归

7-2-4 确定正则化强度

7-2-5 将解释变量标准化

7-2-6 Ridge 回归与 Lasso 回归的估计结果对比

7-2-7 变量选择与正则化的对比

7-2-8 正则化的意义

7-3 Python 中的 Ridge 回归与 Lasso 回归

7-3-1 scikit-learn

7-3-2 环境准备

7-3-3 实现 标准化

7-3-4 定义响应变量

7-3-5 实现 普通最小二乘法

7-3-6 实现 使用 sklearn 实现线性回归

7-3-7 实现 Ridge 回归:惩罚指标的影响

7-3-8 实现 Ridge 回归:确定最佳正则化强度

7-3-9 实现 Lasso 回归:惩罚指标的影响

7-3-10 实现 Lasso 回归:确定最佳正则化强度

7-4 线性模型与神经网络

7-4-1 本节例题

7-4-2 术语 输入向量、目标向量、权重、偏置

7-4-3 术语 单层感知机

7-4-4 术语 激活函数

7-4-5 从线性模型到神经网络

7-4-6 术语 隐藏层

7-4-7 术语 神经网络

7-4-8 神经网络的结构

7-4-9 神经网络中的 L2 正则化

7-4-10 环境准备

7-4-11 实现 读入数据并整理

7-4-12 实现 logistic 回归

7-4-13 实现 标准化

7-4-14 实现 神经网络

7-4-15 线性模型与神经网络的优点

7-5 扩展内容

7-5-1 数学原理

7-5-2 经典统计学

7-5-3 统计模型

7-5-4 机器学习

7-5-5 模型评估

7-5-6 数据科学

参考文献

作者简介

看完了

用Python动手学统计学是2021年由人民邮电出版社出版,作者[日]马场真哉。

得书感谢您对《用Python动手学统计学》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python极客编程:用代码探索世界 电子书
16个有趣的编程项目,提升Python编程技能,培养解决现实问题的思维。
三步学Python 电子书
本书以类似课堂学习的方式,通过预习、体验、理解三个步骤讲解Python的基础知识。
趣学Python——教孩子学编程 电子书
  Python是一款解释型、面向对象、动态数据类型的高级程序设计语言。Python语法简捷而清晰,具有丰富和强大的类库,因而在各种行业中得到广泛的应用。对于初学者来讲,Python是一款既容易学又相当有用的编程语言,国内外很多大学开设这款语言课程,将Python作为一门编程语言学习。  《趣学Python:教孩子学编程》是一本轻松、快速掌握Python编程的入门读物。全书分为3部分,共18章。第
青少年学Python(第2册) 电子书
本书主要内容为函数、字符串、列表、字典、集合的基本用法讲解及应用。通过对本部分内容的学习,学生可设计完成较为复杂的程序设计作品。
青少年学Python(第1册) 电子书
本书为入门知识,包含人工智能学科常识与应用,人工智能与编程的关系,Python语言的特点、变量、数据类型与运算符、三大结构等。