Python数据科学应用从入门到精通

Python数据科学应用从入门到精通

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

全面介绍Python数据分析的基本概念和技能。

内容简介

随着数据存储、数据处理等大数据技术的快速发展,数据科学在各行各业得到广泛的应用。数据清洗、特征工程、数据可视化、数据挖掘与建模等已成为高校师生和职场人士迎接数字化浪潮、与时俱进提升专业技能的必修课程。本书将“Python课程学习”与“数据科学应用”有机结合,为数字化人才的培养助力。

全书共分13章,内容包括:第1章数据科学应用概述;第2章Python的入门基础知识;第3章数据清洗;第4~6章特征工程介绍,包括特征选择、特征处理和特征提取;第7章数据可视化应用;第8~13章介绍6种数据挖掘与建模的方法,分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。

作者简介

编著者张甜,山东大学金融学博士,现就职于山东管理学院,教授统计学、计量经济学等课程。

章节目录

版权信息

内容简介

作者简介

推荐序1

推荐序2

前言

第1章 数据科学应用概述

1.1 什么是数据清洗、特征工程、数据可视化、数据挖掘与建模

1.1.1 数据清洗的概念

1.1.2 特征工程的概念

1.1.3 数据可视化的概念

1.1.4 数据挖掘与建模的概念

1.2 为什么要开展数据清洗、特征工程、数据可视化和数据挖掘与建模

1.2.1 数据清洗、特征工程的重要性

1.2.2 数据可视化的重要性

1.2.3 数据挖掘与建模的重要性

1.3 为什么要将Python作为实现工具

1.4 数据清洗、特征工程、数据可视化和数据挖掘与建模的主要内容

1.4.1 数据清洗的主要内容

1.4.2 特征工程的主要内容

1.4.3 数据可视化的主要内容

1.4.4 数据挖掘与建模的主要内容

1.5 数据清洗、特征工程、数据可视化和数据挖掘与建模的应用场景

1.5.1 数据清洗、特征工程的应用场景

1.5.2 数据可视化的应用场景

1.5.3 数据挖掘与建模的应用场景

1.6 数据清洗、特征工程和数据可视化的注意事项

1.6.1 数据清洗、特征工程的注意事项

1.6.2 数据可视化的注意事项

1.7 数据挖掘与建模的注意事项

1.8 习题

第2章 Python入门基础

2.1 Python概述

2.2 Anaconda平台的下载与安装

2.2.1 Anaconda平台的下载

2.2.2 Anaconda平台的安装

2.2.3 Anaconda Prompt(Anaconda3)

2.2.4 Spyder(Anaconda3)的介绍及偏好设置

2.2.5 Spyder(Anaconda3)窗口介绍

2.3 Python的注释

2.4 基本输出函数

2.5 基本输入函数

2.6 Python的保留字与标识符

2.6.1 Python中的保留字

2.6.2 Python的标识符

2.7 Python的变量

2.8 Python的基本数据类型

2.9 Python的数据运算符

2.10 Python序列的概念及通用操作

2.10.1 索引

2.10.2 切片

2.10.3 相加

2.10.4 相乘

2.10.5 元素检查

2.10.6 与序列相关的内置函数

2.11 Python列表

2.11.1 列表的基本操作

2.11.2 列表元素的基本操作

2.12 Python元组

2.12.1 元组的基本操作

2.12.2 元组元素的基本操作

2.13 Python字典

2.13.1 字典的基本操作

2.13.2 字典元素的基本操作

2.14 Python集合

2.15 Python字符串

2.16 习题

第3章 数据清洗

3.1 Python数据清洗基础

3.1.1 Python函数与模块

3.1.2 numpy模块数组

3.1.3 pandas模块序列

3.1.4 pandas模块数据框

3.1.5 Python流程控制语句

3.2 Python数据读取、合并、写入

3.2.1 读取、合并、写入文本文件(CSV或者TXT)

3.2.2 读取、合并、写入Excel数据文件

3.2.3 读取、合并、写入Stata数据文件

3.2.4 读取、合并SPSS数据文件

3.3 Python数据检索

3.4 Python数据行列处理

3.4.1 删除变量列、样本行

3.4.2 更改变量的列名称、调整变量列顺序

3.4.3 改变列的数据格式

3.4.4 多列转换

3.4.5 数据百分比格式转换

3.5 Python数据缺失值处理

3.5.1 查看数据集中的缺失值

3.5.2 填充数据集中的缺失值

3.5.3 删除数据集中的缺失值

3.6 Python数据重复值处理

3.6.1 查看数据集中的重复值

3.6.2 删除数据集中的重复值

3.7 Python数据异常值处理

3.7.1 运用3δ准则检测异常值

3.7.2 绘制箱图检测异常值

3.7.3 删除异常值

3.7.4 3δ准则替换异常值

3.7.5 1%/99%分位数替换异常值

3.8 Python数据透视表、描述性分析和交叉表分析

3.8.1 数据透视表

3.8.2 描述性分析

3.8.3 交叉表分析

3.9 习题

第4章 特征选择

4.1 特征选择的概念、原则及方法

4.1.1 特征选择的概念

4.1.2 特征选择的原则

4.1.3 特征选择的方法

4.2 过滤法

4.3 过滤法

4.3.1 卡方检验

4.3.2 相关性分析

4.3.3 方差分析(F检验)

4.3.4 互信息

4.4 包裹法

4.5 嵌入法

4.5.1 随机森林算法选择特征变量

4.5.2 提升法算法选择特征变量

4.5.3 Logistic回归算法选择特征变量

4.5.4 线性支持向量机算法选择特征变量

4.6 习题

第5章 特征处理

5.1 特征归一化、特征标准化、样本归一化

5.1.1 特征归一化

5.1.2 特征标准化

5.1.3 样本归一化

5.2 特征等宽分箱和等频分箱

5.3 特征决策树分箱

5.3.1 信息熵

5.3.2 信息增益

5.3.3 增益比率

5.3.4 基尼指数

5.3.5 变量重要性

5.3.6 特征决策树分箱的Python实现

5.4 特征卡方分箱

5.5 WOE(证据权重)和IV(信息价值)

5.5.1 WOE和IV的概念

5.5.2 WOE的作用

5.5.3 WOE编码注意事项

5.5.4 IV的作用

5.5.5 为什么使用IV而不是WOE来判断特征变量的预测能力

5.6 WOE、IV的Python实现

5.6.1 载入分析所需要的模块和函数

5.6.2 数据读取及观察

5.6.3 描述性统计分析

5.6.4 特征变量筛选

5.6.5 划分训练样本和测试样本

5.6.6 分箱操作

5.6.7 画分箱图

5.6.8 调整分箱

5.6.9 将训练样本和测试样本进行WOE编码

5.6.10 构建Logistic模型进行预测

5.6.11 模型预测及评价

5.6.12 绘制ROC曲线,计算AUC值

5.7 习题

第6章 特征提取

6.1 无监督降维技术

6.1.1 主成分分析的基本原理

6.1.2 主成分分析的数学概念

6.1.3 主成分的特征值

6.1.4 样本的主成分得分

6.1.5 主成分载荷

6.1.6 主成分分析的Python实现

6.2 有监督降维技术

6.2.1 线性判别分析的基本原理

6.2.2 线性判别分析的算法过程

6.2.3 线性判别分析的Python实现

6.3 习题

第7章 数据可视化

7.1 四象限图

7.1.1 四象限图简介

7.1.2 案例数据介绍

7.1.3 Python代码示例

7.2 热力图

7.2.1 热力图简介

7.2.2 案例数据介绍

7.2.3 Python代码示例

7.3 直方图

7.3.1 直方图简介

7.3.2 案例数据介绍

7.3.3 Python代码示例

7.4 条形图、核密度图和正态QQ图

7.4.1 条形图、核密度图和正态QQ图简介

7.4.2 案例数据介绍

7.4.3 Python代码示例

7.5 散点图

7.5.1 散点图简介

7.5.2 案例数据介绍

7.5.3 Python代码示例

7.6 线图(含时间序列趋势图)

7.6.1 线图(含时间序列趋势图)简介

7.6.2 案例数据介绍

7.6.3 Python代码示例

7.7 双纵轴线图

7.7.1 双纵轴线图简介

7.7.2 案例数据介绍

7.7.3 Python代码示例

7.8 回归拟合图

7.8.1 回归拟合图简介

7.8.2 案例数据介绍

7.8.3 Python代码示例

7.9 箱图

7.9.1 箱图简介

7.9.2 案例数据介绍

7.9.3 Python代码示例

7.10 小提琴图

7.10.1 小提琴图简介

7.10.2 案例数据介绍

7.10.3 Python代码示例

7.11 联合分布图

7.11.1 联合分布图简介

7.11.2 案例数据介绍

7.11.3 Python代码示例

7.12 雷达图

7.12.1 雷达图简介

7.12.2 案例数据介绍

7.12.3 Python代码示例

7.13 饼图

7.13.1 饼图简介

7.13.2 案例数据介绍

7.13.3 Python代码示例

7.14 习题

第8章 数据挖掘与建模1

8.1 基本思想

8.1.1 线性回归算法的概念及数学解释

8.1.2 线性回归算法的优点

8.1.3 线性回归算法的缺点

8.2 应用案例

8.2.1 数据挖掘与建模思路

8.2.2 数据文件介绍

8.2.3 导入分析所需要的模块和函数

8.2.4 数据读取及观察

8.3 使用smf进行线性回归

8.3.1 使用smf进行线性回归

8.3.2 多重共线性检验

8.3.3 解决多重共线性问题

8.3.4 绘制拟合回归平面

8.4 使用sklearn进行线性回归

8.4.1 使用验证集法进行模型拟合

8.4.2 更换随机数种子,使用验证集法进行模型拟合

8.4.3 使用10折交叉验证法进行模型拟合

8.4.4 使用10折重复10次交叉验证法进行模型拟合

8.4.5 使用留一交叉验证法进行模型拟合

8.5 习题

第9章 数据挖掘与建模2

9.1 基本思想

9.1.1 Logistic回归算法的概念及数学解释

9.1.2 “分类问题监督式学习”的性能度量

9.2 应用案例

9.2.1 数据文件介绍

9.2.2 导入分析所需要的模块和函数

9.2.3 数据读取及观察

9.3 描述性分析

9.4 数据处理

9.4.1 区分分类特征和连续特征并进行处理

9.4.2 将样本全集分割为训练样本和测试样本

9.5 建立二元Logistic回归算法模型

9.5.1 使用statsmodels建立二元Logistic回归算法模型

9.5.2 使用sklearn建立二元Logistic回归算法模型

9.5.3 特征变量重要性水平分析

9.5.4 绘制ROC曲线,计算AUC值

9.5.5 计算科恩kappa得分

9.6 习题

第10章 数据挖掘与建模3

10.1 基本思想

10.1.1 决策树算法的概念与原理

10.1.2 决策树的剪枝

10.1.3 包含剪枝决策树的损失函数

10.2 数据准备

10.2.1 案例数据说明

10.2.2 导入分析所需要的模块和函数

10.3 分类问题决策树算法示例

10.3.1 变量设置及数据处理

10.3.2 未考虑成本-复杂度剪枝的决策树分类算法模型

10.3.3 考虑成本-复杂度剪枝的决策树分类算法模型

10.3.4 绘制图形观察叶节点总不纯度随alpha值的变化情况

10.3.5 绘制图形观察节点数和树的深度随alpha值的变化情况

10.3.6 绘制图形观察训练样本和测试样本的预测准确率随alpha值的变化情况

10.3.7 通过10折交叉验证法寻求最优alpha值

10.3.8 决策树特征变量重要性水平分析

10.3.9 绘制ROC曲线

10.3.10 运用两个特征变量绘制决策树算法决策边界图

10.4 回归问题决策树算法示例

10.4.1 变量设置及数据处理

10.4.2 未考虑成本-复杂度剪枝的决策树回归算法模型

10.4.3 考虑成本-复杂度剪枝的决策树回归算法模型

10.4.4 绘制图形观察叶节点总均方误差随alpha值的变化情况

10.4.5 绘制图形观察节点数和树的深度随alpha值的变化情况

10.4.6 绘制图形观察训练样本和测试样本的拟合优度随alpha值的变化情况

10.4.7 通过10折交叉验证法寻求最优alpha值并开展特征变量重要性水平分析

10.4.8 最优模型拟合效果图形展示

10.4.9 构建线性回归算法模型进行对比

10.5 习题

第11章 数据挖掘与建模4

11.1 随机森林算法的基本原理

11.1.1 模型融合的基本思想

11.1.2 集成学习的概念与分类

11.1.3 装袋法的概念与原理

11.1.4 随机森林算法的概念与原理

11.1.5 随机森林算法特征变量重要性度量

11.1.6 部分依赖图与个体条件期望图

11.2 数据准备

11.2.1 案例数据说明

11.2.2 导入分析所需要的模块和函数

11.3 分类问题随机森林算法示例

11.3.1 变量设置及数据处理

11.3.2 二元Logistic回归和单棵分类决策树算法

11.3.3 装袋法分类算法

11.3.4 随机森林分类算法

11.3.5 寻求max_features最优参数

11.3.6 寻求n_estimators最优参数

11.3.7 随机森林特征变量重要性水平分析

11.3.8 绘制部分依赖图与个体条件期望图

11.3.9 模型性能评价

11.3.10 绘制ROC曲线

11.3.11 运用两个特征变量绘制随机森林算法决策边界图

11.4 回归问题随机森林算法示例

11.4.1 变量设置及数据处理

11.4.2 线性回归、单棵回归决策树算法

11.4.3 装袋法回归算法

11.4.4 随机森林回归算法

11.4.5 寻求max_features最优参数

11.4.6 寻求n_estimators最优参数

11.4.7 随机森林特征变量重要性水平分析

11.4.8 绘制部分依赖图与个体条件期望图

11.4.9 最优模型拟合效果图形展示

11.5 习题

第12章 数据挖掘与建模5

12.1 神经网络算法的基本原理

12.1.1 神经网络算法的基本思想

12.1.2 感知机

12.1.3 多层感知机

12.1.4 神经元激活函数

12.1.5 误差反向传播算法(BP算法)

12.1.6 万能近似定理及多隐藏层优势

12.1.7 BP算法过拟合问题的解决

12.2 数据准备

12.2.1 案例数据说明

12.2.2 导入分析所需要的模块和函数

12.3 回归神经网络算法示例

12.3.1 变量设置及数据处理

12.3.2 单隐藏层的多层感知机算法

12.3.3 神经网络特征变量重要性水平分析

12.3.4 绘制部分依赖图与个体条件期望图

12.3.5 拟合优度随神经元个数变化的可视化展示

12.3.6 通过K折交叉验证寻求单隐藏层最优神经元个数

12.3.7 双隐藏层的多层感知机算法

12.3.8 最优模型拟合效果图形展示

12.4 二分类神经网络算法示例

12.4.1 变量设置及数据处理

12.4.2 单隐藏层二分类问题神经网络算法

12.4.3 双隐藏层二分类问题神经网络算法

12.4.4 早停策略减少过拟合问题

12.4.5 正则化(权重衰减)策略减少过拟合问题

12.4.6 模型性能评价

12.4.7 绘制ROC曲线

12.4.8 运用两个特征变量绘制二分类神经网络算法决策边界图

12.5 习题

第13章 数据挖掘与建模6

13.1 RFM分析的基本原理

13.1.1 RFM分析的基本思想

13.1.2 RFM分类组合与客户类型对应情况

13.1.3 不同类型客户的特点及市场营销策略

13.2 数据准备

13.2.1 案例数据说明

13.2.2 导入分析所需要的模块和函数

13.3 RFM分析示例

13.3.1 数据读取及观察

13.3.2 计算R、F、M分值

13.3.3 生成RFM数据集

13.3.4 不同类别客户数量分析

13.3.5 不同类别客户消费金额分析

13.4 习题

Python数据科学应用从入门到精通是2023年由清华大学出版社出版,作者张甜 编著。

得书感谢您对《Python数据科学应用从入门到精通》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
MATLAB从入门到精通 电子书
零基础、入门级的讲解 无论读者是否从事计算机相关行业,是否接触过MATLAB,是否使用MATLAB开发过项目,都能从本书中获益。 超多、实用、专业的范例和项目 本书结合实际工作中的范例,逐一讲解MATLAB的各种知识和技术。之后,还以实际开发项目帮助读者综合运用所学知识,从而提升实战经验,积累项目经验。 随时检测自己的学习成果 每章首页给出了“本章要点”,方便读者明确学习方向。 细致入微、贴心提示 本书在讲解过程中使用了“提示”“注意”“技巧”等小栏目,帮助读者在学习过程中更清楚地理解基本概念,掌握相关操作,并轻松获取实战技巧。 全程同步教学视频 涵盖本书所有知识点,详细讲解每个范例和项目的开发过程及关键点,帮助读者更轻松地掌握书中所有的MATLAB 程序设计知识。 超多电子资源大放送 赠送大量电子资源,包括 11 小时全程同步教学视频、188 个范例源码、全书配套 PPT、85 个经典程序源代码、MATLAB 快捷键速查手册、MATLAB 函数速查手册、MATLAB 编程实例 100 例、MATLAB 常见问题解答电子书、MATLAB 中常见的程序出错问题及解答电子书、数学建模常用到的 MATLAB 函数电子书。
Oracle从入门到精通 电子书
(1)全程同步视频教学,手机扫码,随看随学 (2)Oracle项目实战教学录像 (3)Java项目实战教学录像 (4)全书配套范例源码与实战练习答案 (5)Oracle常见面试题、Oracle常见函数汇总等相关电子书
MySQL从入门到精通 电子书
本书适合任何想学习MySQL的读者,无论您是否从事计算机相关行业,是否接触过MySQL,均可通过学习快速掌握MySQL的开发方法和技巧。
Android从入门到精通 电子书
本书以零基础讲解为宗旨,用实例引导读者学习,深入浅出地介绍了Andriod开发的相关知识和实战技能。本书第1篇【基础知识】主要讲解Android开发环境的搭建方法和应用开发基础知识等内容;第2篇【核心技术】主要讲解UI界面布局、核心组件、事件处理、Activity界面表现、Intent和IntentFilter、Service和BroadcastReceiver、应用资源管理机制、数据存储等内容;
Excel 2019办公应用实战从入门到精通 电子书
(1)案例设计精良,直面实战需求。 (2)“图书 电脑 手机”三位一体的教学方式。 (3)实例教学,紧密结合日常工作、学习、生活,选取贴近实际的应用案例。 (4)同步全高清视频教学,如名师在侧,高手相伴。 (5)超值赠送相关图书视频教学文件和电子书,花一本书的钱,买几本书的内容。 (6)大量赠送实用软件工具、办公模板,便于读者随时扩展学习应用。