用Python动手学统计学

[日]马场真哉

计算机与互联网类型

157千字字数

8.2 豆瓣评分

No.8 排行榜

查阅电子书

手机扫码

微信扫一扫

关注微信公众号

因版权原因待上架

类似推荐

电子书


Java编程动手学

汪建
电子书


动手学强化学习

张伟楠，沈键，俞勇
电子书


用Python轻松处理Excel数据

阳光灿烂　著
电子书


动手学深度学习（PyTorch版）

阿斯顿·张（Aston Zhang），李沐（Mu Li），等
电子书


ScratchJr趣味编程动手玩：让孩子用编程讲故事

码高少儿编程

编辑推荐

文科生也能学会的统计学入门书，为你夯实数据分析基本功。

内容简介

本书是面向零基础读者的统计学入门书，对同一个知识点分别使用文字、公式和Python示例代码加以讲解，循序渐进地介绍了统计学和Python的基础知识、使用Python进行统计分析的方法、正态线性模型和广义线性模型等统计模型，以及机器学习等。

通过阅读本书，读者不仅可以通过书中例子深刻理解统计学术语、统计分析方法和预测方法等，还可以学到十分前沿的机器学习知识，以及如何使用Python实现数据可视化和建模等。

本书适合统计学和Python初学者以及对数据科学和机器学习感兴趣的读者使用，也可作为高等院校计算机、统计等专业学生的入门书。

作者简介

作者马场真哉，出生于日本神户市，毕业于北海道大学。经常在个人网站Logics of Blue分享统计学、数据分析与编程知识。

著有《决策分析和预测的活用：从基础理论懂啊Python实现》《R语言编程和数据分析》《基于贝叶斯统计建模的数据分析入门：使用R和Stan》等。

章节目录

版权信息

说明

前言

第1章统计学基础

1-1 统计学

1-1-1 统计学的目标①：描述现有数据

1-1-2 统计学的目标②：估计未知数据

1-1-3 术语样本与总体

1-1-4 1-2 节及之后的内容

1-2 获取样本的过程

1-2-1 术语随机变量

1-2-2 湖中钓鱼的例子

1-2-3 从总体中获取样本的过程

1-2-4 术语样本值

1-2-5 术语抽样

1-2-6 术语简单随机抽样

1-2-7 术语样本容量

1-2-8 术语普查与抽样调查

1-3 抽样过程的抽象描述

1-3-1 符号概率

1-3-2 术语概率分布

1-3-3 术语服从概率分布

1-3-4 术语总体分布

1-3-5 作为抽样过程的总体分布

1-3-6 无限总体的含义与总体分布

1-3-7 总结：抽样过程

1-3-8 补充瓮模型

1-4 描述统计基础

1-4-1 术语定量变量

1-4-2 术语离散变量与连续变量

1-4-3 术语分类变量

1-4-4 术语组、组中值

1-4-5 术语频率、频率分布、相对频率

1-4-6 术语累积频数、累积频率

1-4-7 术语直方图

1-4-8 术语统计量

1-4-9 术语均值

1-4-10 术语期望值

1-4-11 术语方差

1-4-12 补充均值、方差与数据范围

1-5 总体分布的推断

1-5-1 总体分布与总体的频率分布

1-5-2 更现实一些的湖中钓鱼

1-5-3 做假设

1-6 概率质量函数与概率密度函数

1-6-1 术语概率质量函数

1-6-2 术语概率密度

1-6-3 补充积分与加法的关系

1-6-4 术语概率密度函数

1-6-5 术语正态分布

1-6-6 术语参数（概率分布的参数）

1-6-7 各种各样的概率分布

1-6-8 推断总体分布 = 确定分布 + 估计参数

1-6-9 把样本的统计量看作参数的估计值

1-6-10 补充估计误差

1-6-11 总结：统计学基础

1-7 统计量的计算

1-7-1 为什么要使用数学式

1-7-2 符号样本

1-7-3 符号均值

1-7-4 符号期望值

1-7-5 术语总体均值与样本均值

1-7-6 符号样本方差

1-7-7 术语无偏方差

1-7-8 为什么样本方差会偏离

1-7-9 术语标准差

1-8 概率论基础

1-8-1 术语集合

1-8-2 术语元素

1-8-3 集合的两种表示方法

1-8-4 术语子集

1-8-5 术语维恩图

1-8-6 术语交集与并集

1-8-7 术语差集

1-8-8 术语空集

1-8-9 术语全集

1-8-10 术语补集

1-8-11 术语样本点、样本空间、事件

1-8-12 术语互斥事件

1-8-13 通过掷骰子可以联想到的各种概率分布

1-8-14 概率的公理化定义

1-8-15 用频率解释概率

1-8-16 主观概率

1-8-17 术语概率的加法公式

1-8-18 术语条件概率

1-8-19 术语概率的乘法公式

1-8-20 术语独立事件

1-9 随机变量与概率分布

1-9-1 随机变量与样本值

1-9-2 离散型概率分布与概率质量函数

1-9-3 概率密度

1-9-4 连续型概率分布与概率密度函数

1-9-5 概率的总和与概率密度的积分

1-9-6 补充积分与面积的关系

1-9-7 正态分布的概率密度函数

1-9-8 符号服从概率分布

1-9-9 独立同分布

1-9-10 使用正态分布的概率密度函数计算概率的方法

1-9-11 使用概率密度计算期望值的方法

第2章 Python 与 Jupyter Notebook 基础

2-1 环境搭建

2-1-1 什么是 Python

2-1-2 Python 的版本

2-1-3 Python 与 Anaconda

2-1-4 Jupyter Notebook

2-1-5 下载和安装

2-1-6 补充 Python 编程术语

2-2 认识 Jupyter Notebook

2-2-1 启动 Jupyter Notebook

2-2-2 创建新文件

2-2-3 执行代码

2-2-4 保存执行结果

2-2-5 Markdown 的用法

2-2-6 退出 Jupyter Notebook

2-3 Python 编程基础

2-3-1 实现四则运算

2-3-2 实现编写注释

2-3-3 实现数据类型

2-3-4 实现比较运算符

2-3-5 实现变量

2-3-6 实现函数

2-3-7 实现类与实例

2-3-8 实现基于 if 语句的程序分支

2-3-9 实现基于 for 语句的循环

2-3-10 编写易用程序的窍门

2-4 认识 numpy 与 pandas

2-4-1 导入用于分析的功能s

2-4-2 numpy 与 pandas

2-4-3 实现列表

2-4-4 术语行与列

2-4-5 实现数组

2-4-6 实现生成等差数列的方法

2-4-7 实现多种生成数组的方式

2-4-8 实现切片

2-4-9 实现数据帧

2-4-10 实现读取文件中的数据

2-4-11 实现连接数据帧

2-4-12 实现数据帧的列操作

2-4-13 实现数据帧的行操作

2-4-14 补充序列

2-4-15 补充函数文档

第3章使用 Python 进行数据分析

3-1 使用 Python 进行描述统计：单变量

3-1-1 统计分析与 scipy

3-1-2 单变量数据的操作

3-1-3 实现总和与样本容量

3-1-4 实现均值（期望值）

3-1-5 实现样本方差

3-1-6 实现无偏方差

3-1-7 实现标准差

3-1-8 补充标准化

3-1-9 补充其他统计量

3-1-10 实现 scipy.stats 与四分位数

3-2 使用 Python 进行描述统计：多变量

3-2-1 术语整洁数据

3-2-2 术语杂乱数据

3-2-3 术语列联表（交叉分类表）

3-2-4 多变量数据的管理

3-2-5 实现求各分组的统计量

3-2-6 实现列联表

3-2-7 术语协方差

3-2-8 术语协方差矩阵

3-2-9 实现协方差

3-2-10 实现协方差矩阵

3-2-11 术语皮尔逊积矩相关系数

3-2-12 术语相关矩阵

3-2-13 实现皮尔逊积矩相关系数

3-2-14 补充相关系数无效的情况

3-3 基于 matplotlib、seaborn 的数据可视化

3-3-1 Python 中的数据可视化

3-3-2 实现数据可视化的环境准备

3-3-3 实现用 pyplot 绘制折线图

3-3-4 实现用 seaborn 和 pyplot 绘制折线图

3-3-5 实现用 seaborn 绘制直方图

3-3-6 实现通过核密度估计将直方图平滑化

3-3-7 实现两个变量的直方图

3-3-8 将多变量可视化的代码

3-3-9 实现箱形图

3-3-10 实现小提琴图

3-3-11 实现条形图

3-3-12 实现散点图

3-3-13 实现散点图矩阵

3-4 用 Python 模拟抽样

3-4-1 环境准备

3-4-2 抽样过程

3-4-3 在只有 5 条鱼的湖中抽样

3-4-4 术语随机数

3-4-5 术语放回抽样、不放回抽样

3-4-6 从鱼较多的湖中抽样

3-4-7 总体分布

3-4-8 对比总体分布和正态分布的概率密度函数

3-4-9 抽样过程的抽象描述

3-4-10 补充有限总体校正

3-4-11 补充假设总体服从正态分布是否恰当

3-5 样本统计量的性质

3-5-1 术语试验

3-5-2 术语样本分布

3-5-3 导入所需的库

3-5-4 多次计算样本均值

3-5-5 样本均值的均值与总体均值相近

3-5-6 样本容量越大，样本均值越接近总体均值

3-5-7 定义用来计算样本均值的函数

3-5-8 不同样本容量所得的样本均值的分布

3-5-9 样本均值的标准差小于总体标准差

3-5-10 术语标准误差

3-5-11 标准误差的直观解释

3-5-12 样本方差的均值偏离总体方差

3-5-13 采用无偏方差消除偏离

3-5-14 样本容量越大，其无偏方差越接近总体方差

3-5-15 术语无偏性

3-5-16 术语一致性

3-5-17 较好的参数估计量

3-5-18 补充大数定律

3-5-19 补充中心极限定理

3-6 正态分布及其应用

3-6-1 导入函数库

3-6-2 实现概率密度

3-6-3 样本小于等于某值的比例

3-6-4 术语累积分布函数

3-6-5 实现累积分布函数

3-6-6 术语左侧概率与百分位数

3-6-7 实现百分位数

3-6-8 术语标准正态分布

3-6-9 术语 t 值

3-6-10 t 值的样本分布

3-6-11 术语 t 分布

3-6-12 实现 t 分布

3-7 参数估计

3-7-1 本节任务

3-7-2 环境准备

3-7-3 术语点估计

3-7-4 实现点估计

3-7-5 术语区间估计

3-7-6 术语置信水平、置信区间

3-7-7 术语置信界限

3-7-8 置信区间的计算

3-7-9 实现区间估计

3-7-10 补充置信区间的求解细节

3-7-11 决定置信区间大小的因素

3-7-12 区间估计结果的解读

3-8 假设检验

3-8-1 术语假设检验

3-8-2 单样本 t 检验

3-8-3 显著性差异

3-8-4 t 检验的直观解释

3-8-5 均值差异大不代表存在显著性差异

3-8-6 t 值

3-8-7 假设检验的结构：零假设与备择假设

3-8-8 术语 p 值

3-8-9 术语显著性水平

3-8-10 t 检验与 t 分布的关系

3-8-11 术语单侧检验与双侧检验

3-8-12 p 值的计算

3-8-13 t 检验的实现：环境准备

3-8-14 t 检验的实现：计算 t 值

3-8-15 t 检验的实现：计算 p 值

3-8-16 通过模拟实验计算 p 值

3-9 均值差的检验

3-9-1 双样本 t 检验

3-9-2 配对样本 t 检验

3-9-3 环境准备

3-9-4 实现配对样本 t 检验

3-9-5 独立样本 t 检验

3-9-6 实现独立样本 t 检验

3-9-7 补充独立样本 t 检验（同方差）

3-9-8 补充 p 值操纵

3-10 列联表检验

3-10-1 使用列联表的好处

3-10-2 本节例题

3-10-3 计算期望频数

3-10-4 计算观测频数和期望频数的差

3-10-5 实现计算 p 值

3-10-6 实现列联表检验

3-11 检验结果的解读

3-11-1 p 值小于 0.05 时的表述方法

3-11-2 p 值大于 0.05 时的表述方法

3-11-3 关于假设检验的常见误区

3-11-4 p 值小不代表差异大

3-11-5 p 值大于 0.05 不代表没有差异

3-11-6 术语第一类错误与第二类错误

3-11-7 术语假设检验的非对称性

3-11-8 在检验之前确定显著性水平

3-11-9 补充统计模型的选择

3-11-10 假设检验有什么用

3-11-11 假设是否正确

第4章统计模型基础

4-1 统计模型

4-1-1 术语模型

4-1-2 术语建模

4-1-3 模型有什么用

4-1-4 简化复杂的世界

4-1-5 从某个角度观察复杂的现象

4-1-6 术语数学模型

4-1-7 术语概率模型

4-1-8 术语统计模型

4-1-9 概率分布与统计模型

4-1-10 基于统计模型的预测

4-1-11 统计模型与经典数据分析的对比

4-1-12 统计模型应用

4-2 建模方法

4-2-1 本节例题

4-2-2 术语响应变量和解释变量

4-2-3 术语参数模型

4-2-4 术语非参数模型

4-2-5 术语线性模型

4-2-6 术语系数与权重

4-2-7 建模 = 模型选择 + 参数估计

4-2-8 线性模型的建模方法

4-2-9 术语变量选择

4-2-10 术语空模型

4-2-11 通过假设检验选择变量

4-2-12 通过信息量准则选择变量

4-2-13 模型评估

4-2-14 补充在建模之前确定分析目的

4-3 数据表示与模型名称

4-3-1 术语正态线性模型

4-3-2 术语回归分析（经典术语）

4-3-3 术语多元回归分析（经典术语）

4-3-4 术语方差分析（经典术语）

4-3-5 术语广义线性模型

4-3-6 补充机器学习中的叫法

4-4 参数估计：最大似然估计

4-4-1 为什么要学习参数估计

4-4-2 术语似然

4-4-3 术语似然函数

4-4-4 术语对数似然

4-4-5 术语对数的性质

4-4-6 术语最大似然法

4-4-7 术语最大似然估计量

4-4-8 术语最大对数似然

4-4-9 服从正态分布的数据的似然

4-4-10 术语多余参数

4-4-11 正态线性模型的似然

4-4-12 补充最大似然法计算举例

4-4-13 补充最大似然估计量的性质

4-5 参数估计：最小化损失

4-5-1 术语损失函数

4-5-2 术语残差

4-5-3 为什么不把残差之和作为损失指标

4-5-4 术语残差平方和

4-5-5 术语最小二乘法

4-5-6 补充最小二乘法与最大似然法的关系

4-5-7 术语误差函数

4-5-8 多种损失函数

4-6 预测精度的评估与变量选择

4-6-1 术语拟合精度与预测精度

4-6-2 术语过拟合

4-6-3 变量选择的意义

4-6-4 术语泛化误差

4-6-5 术语训练集与测试集

4-6-6 术语交叉验证

4-6-7 术语赤池信息量准则

4-6-8 术语相对熵

4-6-9 最小化相对熵与平均对数似然

4-6-10 AIC 与平均对数似然中的偏离

4-6-11 AIC 与交叉验证

4-6-12 使用 AIC 进行变量选择

4-6-13 用变量选择代替假设检验

4-6-14 使用假设检验还是 AIC

第5章正态线性模型

5-1 含有单个连续型解释变量的模型（一元回归）

5-1-1 环境准备

5-1-2 实现读入数据并绘制其图形

5-1-3 建模

5-1-4 实现使用 statsmodels 实现模型化

5-1-5 实现打印估计结果并检验系数

5-1-6 关于 summary 函数的输出的说明

5-1-7 实现使用 AIC 进行模型选择

5-1-8 术语回归直线

5-1-9 实现用 seaborn 绘制回归直线

5-1-10 实现使用模型进行预测

5-1-11 实现获取残差

5-1-12 术语决定系数

5-1-13 实现决定系数

5-1-14 术语修正决定系数

5-1-15 实现修正决定系数

5-1-16 实现残差的直方图和散点图

5-1-17 术语分位图

5-1-18 实现分位图

5-1-19 根据 summary 函数的输出分析残差

5-2 方差分析

5-2-1 本节例题

5-2-2 什么时候应该使用方差分析

5-2-3 术语多重假设检验

5-2-4 方差分析的直观理解：F 比

5-2-5 显著性差异与小提琴图

5-2-6 方差分析的直观理解：分离效应和误差

5-2-7 术语组间差异与组内差异

5-2-8 环境准备

5-2-9 生成数据并可视化

5-2-10 实现方差分析①：计算组间偏差平方和与组内偏差平方和

5-2-11 实现方差分析②：计算组间方差与组内方差

5-2-12 实现方差分析③：计算 p 值

5-2-13 解释变量为分类变量的正态线性模型

5-2-14 术语虚拟变量

5-2-15 实现 statsmodels 中的方差分析

5-2-16 术语方差分析表

5-2-17 模型系数的含义

5-2-18 使用模型分离效应和误差

5-2-19 回归模型中的方差分析

5-3 含有多个解释变量的模型

5-3-1 环境准备

5-3-2 实现数据可视化

5-3-3 错误的分析：建立只有 1 个变量的模型

5-3-4 分析解释变量之间的关系

5-3-5 实现多解释变量的模型

5-3-6 错误的分析：使用普通方差分析

5-3-7 实现回归系数的 t 检验

5-3-8 术语 Type II ANOVA

5-3-9 模型选择与方差分析

5-3-10 Type II ANOVA 与调整平方和

5-3-11 实现 Type II ANOVA

5-3-12 Type II ANOVA 的含义

5-3-13 实现变量选择与模型选择

5-3-14 使用 AIC 进行变量选择

5-3-15 补充多重共线性

第6章广义线性模型

6-1 各种概率分布

6-1-1 术语二值随机变量

6-1-2 术语伯努利试验

6-1-3 术语成功概率

6-1-4 术语伯努利分布

6-1-5 术语二项分布

6-1-6 二项分布的应用

6-1-7 二项分布的概率质量函数

6-1-8 环境准备

6-1-9 实现二项分布

6-1-10 术语泊松分布

6-1-11 泊松分布的应用

6-1-12 泊松分布的概率质量函数

6-1-13 补充二项分布与泊松分布的关系

6-1-14 实现泊松分布

6-1-15 补充其他概率分布

6-1-16 补充指数分布族

6-2 广义线性模型基础

6-2-1 广义线性模型的组成

6-2-2 概率分布

6-2-3 术语线性预测算子

6-2-4 术语联系函数

6-2-5 联系函数与概率分布的关系

6-2-6 广义线性模型的参数估计

6-2-7 补充广义线性模型的检验方法

6-3 logistic 回归

6-3-1 术语 logistic 回归

6-3-2 本节例题

6-3-3 二值分类问题

6-3-4 术语 logit 函数

6-3-5 术语反函数

6-3-6 术语 logistic 函数

6-3-7 logistic 函数的性质

6-3-8 logistic 回归的推导

6-3-9 logistic 回归的似然函数

6-3-10 环境准备

6-3-11 实现读取数据并可视化

6-3-12 实现 logistic 回归

6-3-13 实现 logistic 回归的结果

6-3-14 实现模型选择

6-3-15 实现回归曲线

6-3-16 实现预测成功概率

6-3-17 术语优势

6-3-18 术语优势比

6-3-19 logistic 回归的系数与优势比的关系

6-4 广义线性模型的评估

6-4-1 环境准备

6-4-2 术语皮尔逊残差

6-4-3 皮尔逊残差的含义

6-4-4 实现皮尔逊残差

6-4-5 术语模型偏差

6-4-6 模型偏差的含义

6-4-7 补充模型偏差与似然比检验

6-4-8 术语偏差残差

6-4-9 实现偏差残差

6-4-10 补充交叉熵误差

6-5 泊松回归

6-5-1 术语泊松回归

6-5-2 本节例题

6-5-3 泊松回归的推导

6-5-4 环境准备

6-5-5 实现泊松回归

6-5-6 实现模型选择

6-5-7 实现回归曲线

6-5-8 回归系数的含义

第7章统计学与机器学习

7-1 机器学习基础

7-1-1 术语机器学习

7-1-2 术语有监督学习

7-1-3 术语无监督学习

7-1-4 补充强化学习

7-1-5 补充规则学习

7-1-6 统计学与机器学习无法彻底分离

7-1-7 统计学注重过程，机器学习注重结果

7-2 正则化、Ridge 回归与 Lasso 回归

7-2-1 术语正则化

7-2-2 术语 Ridge 回归

7-2-3 术语 Lasso 回归

7-2-4 确定正则化强度

7-2-5 将解释变量标准化

7-2-6 Ridge 回归与 Lasso 回归的估计结果对比

7-2-7 变量选择与正则化的对比

7-2-8 正则化的意义

7-3 Python 中的 Ridge 回归与 Lasso 回归

7-3-1 scikit-learn

7-3-2 环境准备

7-3-3 实现标准化

7-3-4 定义响应变量

7-3-5 实现普通最小二乘法

7-3-6 实现使用 sklearn 实现线性回归

7-3-7 实现 Ridge 回归：惩罚指标的影响

7-3-8 实现 Ridge 回归：确定最佳正则化强度

7-3-9 实现 Lasso 回归：惩罚指标的影响

7-3-10 实现 Lasso 回归：确定最佳正则化强度

7-4 线性模型与神经网络

7-4-1 本节例题

7-4-2 术语输入向量、目标向量、权重、偏置

7-4-3 术语单层感知机

7-4-4 术语激活函数

7-4-5 从线性模型到神经网络

7-4-6 术语隐藏层

7-4-7 术语神经网络

7-4-8 神经网络的结构

7-4-9 神经网络中的 L2 正则化

7-4-10 环境准备

7-4-11 实现读入数据并整理

7-4-12 实现 logistic 回归

7-4-13 实现标准化

7-4-14 实现神经网络

7-4-15 线性模型与神经网络的优点

7-5 扩展内容

7-5-1 数学原理

7-5-2 经典统计学

7-5-3 统计模型

7-5-4 机器学习

7-5-5 模型评估

7-5-6 数据科学

参考文献

作者简介

看完了

用Python动手学统计学是2021年由人民邮电出版社出版,作者[日]马场真哉。

得书感谢您对《用Python动手学统计学》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。

得书 - 好书推荐、正版图书免费阅读