类似推荐
编辑推荐
文科生也能学会的统计学入门书,为你夯实数据分析基本功。
内容简介
本书是面向零基础读者的统计学入门书,对同一个知识点分别使用文字、公式和Python示例代码加以讲解,循序渐进地介绍了统计学和Python的基础知识、使用Python进行统计分析的方法、正态线性模型和广义线性模型等统计模型,以及机器学习等。
通过阅读本书,读者不仅可以通过书中例子深刻理解统计学术语、统计分析方法和预测方法等,还可以学到十分前沿的机器学习知识,以及如何使用Python实现数据可视化和建模等。
本书适合统计学和Python初学者以及对数据科学和机器学习感兴趣的读者使用,也可作为高等院校计算机、统计等专业学生的入门书。
作者简介
作者马场真哉,出生于日本神户市,毕业于北海道大学。经常在个人网站Logics of Blue分享统计学、数据分析与编程知识。
著有《决策分析和预测的活用:从基础理论懂啊Python实现》《R语言编程和数据分析》《基于贝叶斯统计建模的数据分析入门:使用R和Stan》等。
章节目录
版权信息
版权声明
说明
前言
第1章 统计学基础
1-1 统计学
1-1-1 统计学的目标①:描述现有数据
1-1-2 统计学的目标②:估计未知数据
1-1-3 术语 样本与总体
1-1-4 1-2 节及之后的内容
1-2 获取样本的过程
1-2-1 术语 随机变量
1-2-2 湖中钓鱼的例子
1-2-3 从总体中获取样本的过程
1-2-4 术语 样本值
1-2-5 术语 抽样
1-2-6 术语 简单随机抽样
1-2-7 术语 样本容量
1-2-8 术语 普查与抽样调查
1-3 抽样过程的抽象描述
1-3-1 符号 概率
1-3-2 术语 概率分布
1-3-3 术语 服从概率分布
1-3-4 术语 总体分布
1-3-5 作为抽样过程的总体分布
1-3-6 无限总体的含义与总体分布
1-3-7 总结:抽样过程
1-3-8 补充 瓮模型
1-4 描述统计基础
1-4-1 术语 定量变量
1-4-2 术语 离散变量与连续变量
1-4-3 术语 分类变量
1-4-4 术语 组、组中值
1-4-5 术语 频率、频率分布、相对频率
1-4-6 术语 累积频数、累积频率
1-4-7 术语 直方图
1-4-8 术语 统计量
1-4-9 术语 均值
1-4-10 术语 期望值
1-4-11 术语 方差
1-4-12 补充 均值、方差与数据范围
1-5 总体分布的推断
1-5-1 总体分布与总体的频率分布
1-5-2 更现实一些的湖中钓鱼
1-5-3 做假设
1-6 概率质量函数与概率密度函数
1-6-1 术语 概率质量函数
1-6-2 术语 概率密度
1-6-3 补充 积分与加法的关系
1-6-4 术语 概率密度函数
1-6-5 术语 正态分布
1-6-6 术语 参数(概率分布的参数)
1-6-7 各种各样的概率分布
1-6-8 推断总体分布 = 确定分布 + 估计参数
1-6-9 把样本的统计量看作参数的估计值
1-6-10 补充 估计误差
1-6-11 总结:统计学基础
1-7 统计量的计算
1-7-1 为什么要使用数学式
1-7-2 符号 样本
1-7-3 符号 均值
1-7-4 符号 期望值
1-7-5 术语 总体均值与样本均值
1-7-6 符号 样本方差
1-7-7 术语 无偏方差
1-7-8 为什么样本方差会偏离
1-7-9 术语 标准差
1-8 概率论基础
1-8-1 术语 集合
1-8-2 术语 元素
1-8-3 集合的两种表示方法
1-8-4 术语 子集
1-8-5 术语 维恩图
1-8-6 术语 交集与并集
1-8-7 术语 差集
1-8-8 术语 空集
1-8-9 术语 全集
1-8-10 术语 补集
1-8-11 术语 样本点、样本空间、事件
1-8-12 术语 互斥事件
1-8-13 通过掷骰子可以联想到的各种概率分布
1-8-14 概率的公理化定义
1-8-15 用频率解释概率
1-8-16 主观概率
1-8-17 术语 概率的加法公式
1-8-18 术语 条件概率
1-8-19 术语 概率的乘法公式
1-8-20 术语 独立事件
1-9 随机变量与概率分布
1-9-1 随机变量与样本值
1-9-2 离散型概率分布与概率质量函数
1-9-3 概率密度
1-9-4 连续型概率分布与概率密度函数
1-9-5 概率的总和与概率密度的积分
1-9-6 补充 积分与面积的关系
1-9-7 正态分布的概率密度函数
1-9-8 符号 服从概率分布
1-9-9 独立同分布
1-9-10 使用正态分布的概率密度函数计算概率的方法
1-9-11 使用概率密度计算期望值的方法
第2章 Python 与 Jupyter Notebook 基础
2-1 环境搭建
2-1-1 什么是 Python
2-1-2 Python 的版本
2-1-3 Python 与 Anaconda
2-1-4 Jupyter Notebook
2-1-5 下载和安装
2-1-6 补充 Python 编程术语
2-2 认识 Jupyter Notebook
2-2-1 启动 Jupyter Notebook
2-2-2 创建新文件
2-2-3 执行代码
2-2-4 保存执行结果
2-2-5 Markdown 的用法
2-2-6 退出 Jupyter Notebook
2-3 Python 编程基础
2-3-1 实现 四则运算
2-3-2 实现 编写注释
2-3-3 实现 数据类型
2-3-4 实现 比较运算符
2-3-5 实现 变量
2-3-6 实现 函数
2-3-7 实现 类与实例
2-3-8 实现 基于 if 语句的程序分支
2-3-9 实现 基于 for 语句的循环
2-3-10 编写易用程序的窍门
2-4 认识 numpy 与 pandas
2-4-1 导入用于分析的功能s
2-4-2 numpy 与 pandas
2-4-3 实现 列表
2-4-4 术语 行与列
2-4-5 实现 数组
2-4-6 实现 生成等差数列的方法
2-4-7 实现 多种生成数组的方式
2-4-8 实现 切片
2-4-9 实现 数据帧
2-4-10 实现 读取文件中的数据
2-4-11 实现 连接数据帧
2-4-12 实现 数据帧的列操作
2-4-13 实现 数据帧的行操作
2-4-14 补充 序列
2-4-15 补充 函数文档
第3章 使用 Python 进行数据分析
3-1 使用 Python 进行描述统计:单变量
3-1-1 统计分析与 scipy
3-1-2 单变量数据的操作
3-1-3 实现 总和与样本容量
3-1-4 实现 均值(期望值)
3-1-5 实现 样本方差
3-1-6 实现 无偏方差
3-1-7 实现 标准差
3-1-8 补充 标准化
3-1-9 补充 其他统计量
3-1-10 实现 scipy.stats 与四分位数
3-2 使用 Python 进行描述统计:多变量
3-2-1 术语 整洁数据
3-2-2 术语 杂乱数据
3-2-3 术语 列联表(交叉分类表)
3-2-4 多变量数据的管理
3-2-5 实现 求各分组的统计量
3-2-6 实现 列联表
3-2-7 术语 协方差
3-2-8 术语 协方差矩阵
3-2-9 实现 协方差
3-2-10 实现 协方差矩阵
3-2-11 术语 皮尔逊积矩相关系数
3-2-12 术语 相关矩阵
3-2-13 实现 皮尔逊积矩相关系数
3-2-14 补充 相关系数无效的情况
3-3 基于 matplotlib、seaborn 的数据可视化
3-3-1 Python 中的数据可视化
3-3-2 实现 数据可视化的环境准备
3-3-3 实现 用 pyplot 绘制折线图
3-3-4 实现 用 seaborn 和 pyplot 绘制折线图
3-3-5 实现 用 seaborn 绘制直方图
3-3-6 实现 通过核密度估计将直方图平滑化
3-3-7 实现 两个变量的直方图
3-3-8 将多变量可视化的代码
3-3-9 实现 箱形图
3-3-10 实现 小提琴图
3-3-11 实现 条形图
3-3-12 实现 散点图
3-3-13 实现 散点图矩阵
3-4 用 Python 模拟抽样
3-4-1 环境准备
3-4-2 抽样过程
3-4-3 在只有 5 条鱼的湖中抽样
3-4-4 术语 随机数
3-4-5 术语 放回抽样、不放回抽样
3-4-6 从鱼较多的湖中抽样
3-4-7 总体分布
3-4-8 对比总体分布和正态分布的概率密度函数
3-4-9 抽样过程的抽象描述
3-4-10 补充 有限总体校正
3-4-11 补充 假设总体服从正态分布是否恰当
3-5 样本统计量的性质
3-5-1 术语 试验
3-5-2 术语 样本分布
3-5-3 导入所需的库
3-5-4 多次计算样本均值
3-5-5 样本均值的均值与总体均值相近
3-5-6 样本容量越大,样本均值越接近总体均值
3-5-7 定义用来计算样本均值的函数
3-5-8 不同样本容量所得的样本均值的分布
3-5-9 样本均值的标准差小于总体标准差
3-5-10 术语 标准误差
3-5-11 标准误差的直观解释
3-5-12 样本方差的均值偏离总体方差
3-5-13 采用无偏方差消除偏离
3-5-14 样本容量越大,其无偏方差越接近总体方差
3-5-15 术语 无偏性
3-5-16 术语 一致性
3-5-17 较好的参数估计量
3-5-18 补充 大数定律
3-5-19 补充 中心极限定理
3-6 正态分布及其应用
3-6-1 导入函数库
3-6-2 实现 概率密度
3-6-3 样本小于等于某值的比例
3-6-4 术语 累积分布函数
3-6-5 实现 累积分布函数
3-6-6 术语 左侧概率与百分位数
3-6-7 实现 百分位数
3-6-8 术语 标准正态分布
3-6-9 术语 t 值
3-6-10 t 值的样本分布
3-6-11 术语 t 分布
3-6-12 实现 t 分布
3-7 参数估计
3-7-1 本节任务
3-7-2 环境准备
3-7-3 术语 点估计
3-7-4 实现 点估计
3-7-5 术语 区间估计
3-7-6 术语 置信水平、置信区间
3-7-7 术语 置信界限
3-7-8 置信区间的计算
3-7-9 实现 区间估计
3-7-10 补充 置信区间的求解细节
3-7-11 决定置信区间大小的因素
3-7-12 区间估计结果的解读
3-8 假设检验
3-8-1 术语 假设检验
3-8-2 单样本 t 检验
3-8-3 显著性差异
3-8-4 t 检验的直观解释
3-8-5 均值差异大不代表存在显著性差异
3-8-6 t 值
3-8-7 假设检验的结构:零假设与备择假设
3-8-8 术语 p 值
3-8-9 术语 显著性水平
3-8-10 t 检验与 t 分布的关系
3-8-11 术语 单侧检验与双侧检验
3-8-12 p 值的计算
3-8-13 t 检验的实现:环境准备
3-8-14 t 检验的实现:计算 t 值
3-8-15 t 检验的实现:计算 p 值
3-8-16 通过模拟实验计算 p 值
3-9 均值差的检验
3-9-1 双样本 t 检验
3-9-2 配对样本 t 检验
3-9-3 环境准备
3-9-4 实现 配对样本 t 检验
3-9-5 独立样本 t 检验
3-9-6 实现 独立样本 t 检验
3-9-7 补充 独立样本 t 检验(同方差)
3-9-8 补充 p 值操纵
3-10 列联表检验
3-10-1 使用列联表的好处
3-10-2 本节例题
3-10-3 计算期望频数
3-10-4 计算观测频数和期望频数的差
3-10-5 实现 计算 p 值
3-10-6 实现 列联表检验
3-11 检验结果的解读
3-11-1 p 值小于 0.05 时的表述方法
3-11-2 p 值大于 0.05 时的表述方法
3-11-3 关于假设检验的常见误区
3-11-4 p 值小不代表差异大
3-11-5 p 值大于 0.05 不代表没有差异
3-11-6 术语 第一类错误与第二类错误
3-11-7 术语 假设检验的非对称性
3-11-8 在检验之前确定显著性水平
3-11-9 补充 统计模型的选择
3-11-10 假设检验有什么用
3-11-11 假设是否正确
第4章 统计模型基础
4-1 统计模型
4-1-1 术语 模型
4-1-2 术语 建模
4-1-3 模型有什么用
4-1-4 简化复杂的世界
4-1-5 从某个角度观察复杂的现象
4-1-6 术语 数学模型
4-1-7 术语 概率模型
4-1-8 术语 统计模型
4-1-9 概率分布与统计模型
4-1-10 基于统计模型的预测
4-1-11 统计模型与经典数据分析的对比
4-1-12 统计模型应用
4-2 建模方法
4-2-1 本节例题
4-2-2 术语 响应变量和解释变量
4-2-3 术语 参数模型
4-2-4 术语 非参数模型
4-2-5 术语 线性模型
4-2-6 术语 系数与权重
4-2-7 建模 = 模型选择 + 参数估计
4-2-8 线性模型的建模方法
4-2-9 术语 变量选择
4-2-10 术语 空模型
4-2-11 通过假设检验选择变量
4-2-12 通过信息量准则选择变量
4-2-13 模型评估
4-2-14 补充 在建模之前确定分析目的
4-3 数据表示与模型名称
4-3-1 术语 正态线性模型
4-3-2 术语 回归分析(经典术语)
4-3-3 术语 多元回归分析(经典术语)
4-3-4 术语 方差分析(经典术语)
4-3-5 术语 广义线性模型
4-3-6 补充 机器学习中的叫法
4-4 参数估计:最大似然估计
4-4-1 为什么要学习参数估计
4-4-2 术语 似然
4-4-3 术语 似然函数
4-4-4 术语 对数似然
4-4-5 术语 对数的性质
4-4-6 术语 最大似然法
4-4-7 术语 最大似然估计量
4-4-8 术语 最大对数似然
4-4-9 服从正态分布的数据的似然
4-4-10 术语 多余参数
4-4-11 正态线性模型的似然
4-4-12 补充 最大似然法计算举例
4-4-13 补充 最大似然估计量的性质
4-5 参数估计:最小化损失
4-5-1 术语 损失函数
4-5-2 术语 残差
4-5-3 为什么不把残差之和作为损失指标
4-5-4 术语 残差平方和
4-5-5 术语 最小二乘法
4-5-6 补充 最小二乘法与最大似然法的关系
4-5-7 术语 误差函数
4-5-8 多种损失函数
4-6 预测精度的评估与变量选择
4-6-1 术语 拟合精度与预测精度
4-6-2 术语 过拟合
4-6-3 变量选择的意义
4-6-4 术语 泛化误差
4-6-5 术语 训练集与测试集
4-6-6 术语 交叉验证
4-6-7 术语 赤池信息量准则
4-6-8 术语 相对熵
4-6-9 最小化相对熵与平均对数似然
4-6-10 AIC 与平均对数似然中的偏离
4-6-11 AIC 与交叉验证
4-6-12 使用 AIC 进行变量选择
4-6-13 用变量选择代替假设检验
4-6-14 使用假设检验还是 AIC
第5章 正态线性模型
5-1 含有单个连续型解释变量的模型(一元回归)
5-1-1 环境准备
5-1-2 实现 读入数据并绘制其图形
5-1-3 建模
5-1-4 实现 使用 statsmodels 实现模型化
5-1-5 实现 打印估计结果并检验系数
5-1-6 关于 summary 函数的输出的说明
5-1-7 实现 使用 AIC 进行模型选择
5-1-8 术语 回归直线
5-1-9 实现 用 seaborn 绘制回归直线
5-1-10 实现 使用模型进行预测
5-1-11 实现 获取残差
5-1-12 术语 决定系数
5-1-13 实现 决定系数
5-1-14 术语 修正决定系数
5-1-15 实现 修正决定系数
5-1-16 实现 残差的直方图和散点图
5-1-17 术语 分位图
5-1-18 实现 分位图
5-1-19 根据 summary 函数的输出分析残差
5-2 方差分析
5-2-1 本节例题
5-2-2 什么时候应该使用方差分析
5-2-3 术语 多重假设检验
5-2-4 方差分析的直观理解:F 比
5-2-5 显著性差异与小提琴图
5-2-6 方差分析的直观理解:分离效应和误差
5-2-7 术语 组间差异与组内差异
5-2-8 环境准备
5-2-9 生成数据并可视化
5-2-10 实现 方差分析①:计算组间偏差平方和与组内偏差平方和
5-2-11 实现 方差分析②:计算组间方差与组内方差
5-2-12 实现 方差分析③:计算 p 值
5-2-13 解释变量为分类变量的正态线性模型
5-2-14 术语 虚拟变量
5-2-15 实现 statsmodels 中的方差分析
5-2-16 术语 方差分析表
5-2-17 模型系数的含义
5-2-18 使用模型分离效应和误差
5-2-19 回归模型中的方差分析
5-3 含有多个解释变量的模型
5-3-1 环境准备
5-3-2 实现 数据可视化
5-3-3 错误的分析:建立只有 1 个变量的模型
5-3-4 分析解释变量之间的关系
5-3-5 实现 多解释变量的模型
5-3-6 错误的分析:使用普通方差分析
5-3-7 实现 回归系数的 t 检验
5-3-8 术语 Type II ANOVA
5-3-9 模型选择与方差分析
5-3-10 Type II ANOVA 与调整平方和
5-3-11 实现 Type II ANOVA
5-3-12 Type II ANOVA 的含义
5-3-13 实现 变量选择与模型选择
5-3-14 使用 AIC 进行变量选择
5-3-15 补充 多重共线性
第6章 广义线性模型
6-1 各种概率分布
6-1-1 术语 二值随机变量
6-1-2 术语 伯努利试验
6-1-3 术语 成功概率
6-1-4 术语 伯努利分布
6-1-5 术语 二项分布
6-1-6 二项分布的应用
6-1-7 二项分布的概率质量函数
6-1-8 环境准备
6-1-9 实现 二项分布
6-1-10 术语 泊松分布
6-1-11 泊松分布的应用
6-1-12 泊松分布的概率质量函数
6-1-13 补充 二项分布与泊松分布的关系
6-1-14 实现 泊松分布
6-1-15 补充 其他概率分布
6-1-16 补充 指数分布族
6-2 广义线性模型基础
6-2-1 广义线性模型的组成
6-2-2 概率分布
6-2-3 术语 线性预测算子
6-2-4 术语 联系函数
6-2-5 联系函数与概率分布的关系
6-2-6 广义线性模型的参数估计
6-2-7 补充 广义线性模型的检验方法
6-3 logistic 回归
6-3-1 术语 logistic 回归
6-3-2 本节例题
6-3-3 二值分类问题
6-3-4 术语 logit 函数
6-3-5 术语 反函数
6-3-6 术语 logistic 函数
6-3-7 logistic 函数的性质
6-3-8 logistic 回归的推导
6-3-9 logistic 回归的似然函数
6-3-10 环境准备
6-3-11 实现 读取数据并可视化
6-3-12 实现 logistic 回归
6-3-13 实现 logistic 回归的结果
6-3-14 实现 模型选择
6-3-15 实现 回归曲线
6-3-16 实现 预测成功概率
6-3-17 术语 优势
6-3-18 术语 优势比
6-3-19 logistic 回归的系数与优势比的关系
6-4 广义线性模型的评估
6-4-1 环境准备
6-4-2 术语 皮尔逊残差
6-4-3 皮尔逊残差的含义
6-4-4 实现 皮尔逊残差
6-4-5 术语 模型偏差
6-4-6 模型偏差的含义
6-4-7 补充 模型偏差与似然比检验
6-4-8 术语 偏差残差
6-4-9 实现 偏差残差
6-4-10 补充 交叉熵误差
6-5 泊松回归
6-5-1 术语 泊松回归
6-5-2 本节例题
6-5-3 泊松回归的推导
6-5-4 环境准备
6-5-5 实现 泊松回归
6-5-6 实现 模型选择
6-5-7 实现 回归曲线
6-5-8 回归系数的含义
第7章 统计学与机器学习
7-1 机器学习基础
7-1-1 术语 机器学习
7-1-2 术语 有监督学习
7-1-3 术语 无监督学习
7-1-4 补充 强化学习
7-1-5 补充 规则学习
7-1-6 统计学与机器学习无法彻底分离
7-1-7 统计学注重过程,机器学习注重结果
7-2 正则化、Ridge 回归与 Lasso 回归
7-2-1 术语 正则化
7-2-2 术语 Ridge 回归
7-2-3 术语 Lasso 回归
7-2-4 确定正则化强度
7-2-5 将解释变量标准化
7-2-6 Ridge 回归与 Lasso 回归的估计结果对比
7-2-7 变量选择与正则化的对比
7-2-8 正则化的意义
7-3 Python 中的 Ridge 回归与 Lasso 回归
7-3-1 scikit-learn
7-3-2 环境准备
7-3-3 实现 标准化
7-3-4 定义响应变量
7-3-5 实现 普通最小二乘法
7-3-6 实现 使用 sklearn 实现线性回归
7-3-7 实现 Ridge 回归:惩罚指标的影响
7-3-8 实现 Ridge 回归:确定最佳正则化强度
7-3-9 实现 Lasso 回归:惩罚指标的影响
7-3-10 实现 Lasso 回归:确定最佳正则化强度
7-4 线性模型与神经网络
7-4-1 本节例题
7-4-2 术语 输入向量、目标向量、权重、偏置
7-4-3 术语 单层感知机
7-4-4 术语 激活函数
7-4-5 从线性模型到神经网络
7-4-6 术语 隐藏层
7-4-7 术语 神经网络
7-4-8 神经网络的结构
7-4-9 神经网络中的 L2 正则化
7-4-10 环境准备
7-4-11 实现 读入数据并整理
7-4-12 实现 logistic 回归
7-4-13 实现 标准化
7-4-14 实现 神经网络
7-4-15 线性模型与神经网络的优点
7-5 扩展内容
7-5-1 数学原理
7-5-2 经典统计学
7-5-3 统计模型
7-5-4 机器学习
7-5-5 模型评估
7-5-6 数据科学
参考文献
作者简介
看完了
用Python动手学统计学是2021年由人民邮电出版社出版,作者[日]马场真哉。
得书感谢您对《用Python动手学统计学》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。