Python数据分析从小白到专家

Python数据分析从小白到专家

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书讲解了11种数据分析方法,拿来就用。

内容简介

本书共13章,主要内容涵盖Python语法及数据分析方法。

第1章主要介绍数据分析的概念,使读者有一个大致的印象,并简单介绍本书频繁使用的Python的5个第三方库。第2章主要做一些准备工作,手把手带读者搭建Python环境,包括Python3.7.6的安装和pip的安装。第3章介绍Python编程基础。第4章到第7章介绍使用Python进行简单数据分析的基础库,包括NumPy、Pandas和Matplotlib库,并介绍使用正则表达式处理数据的方法。第8章到第13章属于进阶内容,但也是Python数据分析的基础,结合机器学习介绍一些常见的用于数据分析的机器学习算法及常用的数学模型。

作者简介

作者田越,曾参加蓝桥杯和ACM等算法竞赛,以及微软公司举办的创新杯竞赛,对于数据分析技术有着执着的追求,善于在学习中发现自己的不足,并将其转化为努力向前的动力。

章节目录

版权信息

内容简介

前言

第1章 数据分析存在的意义

1.1 数据分析与Python

1.1.1 数据科学和数据分析的始末

1.1.2 为什么使用Python作为脚本

1.2 本书的主要内容

1.2.1 数据分析基础:NumPy、Pandas和Matplotlib库概述

1.2.2 数据处理:NumPy库简介

1.2.3 数据处理:Pandas库简介

1.2.4 图表绘制:Matplotlib库简介

1.2.5 中坚力量:Sklearn和Statsmodels库简介

第2章 开始前的准备

2.1 Python 3.7.6的安装

2.1.1 Python3和Python2的区别

2.1.2 在Windows 10系统中下载并安装Python 3.7.6

2.1.3 手动配置环境变量

2.2 pip的安装

2.2.1 pip是什么

2.2.2 在Windows系统中下载和安装pip

2.2.3 使用pip命令下载和管理pip

第3章 Python编程基础

3.1 Python编程初识

3.1.1 第一个Python程序

3.1.2 整型、浮点型、布尔型与复数型

3.1.3 不同数据类型之间的运算法则

3.1.4 Python中的常用内建函数

3.2 Python编程常用类型

3.2.1 Python的列表

3.2.2 Python的元组

3.2.3 Python的字典

3.2.4 Python的字符串

3.3 Python的条件、循环和分支语句以及异常处理

3.3.1 Python的编程风格

3.3.2 错误、异常和异常处理

3.3.3 条件语句:if、if-else和elif

3.3.4 循环语句:while和for

3.4 其他关于Python的重要知识点

3.4.1 匿名函数lambda

3.4.2 Python自定义类与打印函数

第4章 线性代数知识和第三方库NumPy的使用

4.1 必要的线性代数知识

4.1.1 线性代数综述

4.1.2 行列式

4.1.3 矩阵及矩阵的运算

4.1.4 矩阵的初等变换与秩、向量组与线性相关

4.1.5 相似矩阵

4.2 NumPy库的基础操作

4.2.1 NumPy库的安装和基本方法

4.2.2 创建一个数组

4.2.3 索引、切片和迭代

4.2.4 拼合、划分一个矩阵

4.2.5 深拷贝、浅拷贝与不拷贝

4.3 用NumPy库实现矩阵运算

4.3.1 矩阵基本运算一(矩阵加法、矩阵减法、矩阵数乘)

4.3.2 矩阵基本运算二(矩阵相乘、逆矩阵、矩阵的特征值和特征向量)

第5章 使用正则表达式处理数据

5.1 RE模块简述

5.1.1 正则表达式(RE)模块使用的符号

5.1.2 正则表达式的匹配规则

5.2 使用正则表达式模块

5.2.1 匹配对象方法group()和groups()的用法

5.2.2 使用管道符进行匹配

5.2.3 使用*、+、?、{}符号实现多个条件匹配

5.2.4 一些特殊格式的正则表达式匹配模式

第6章 使用Pandas库处理数据

6.1 Pandas库简述

6.1.1 Pandas库能做什么

6.1.2 Pandas库功能简述

6.2 三种格式的文件后缀简述

6.2.1 什么是CSV文件

6.2.2 Python自带的CSV模块

6.2.3 为什么要将TXT和Excel文件转化为CSV文件

6.3 处理.csv格式的数据

6.3.1 用read_csv()和head()读取CSV文件并显示其行/列

6.3.2 查看列数、维度以及切片操作

6.3.3 读取特定的列以及列的改值操作

6.3.4 求某一列的最大值、最小值、算术平均数以及数据的排序

6.3.5 Pandas库的写入操作——to_csv()方法

6.4 处理非.csv格式的数据

6.4.1 用Pandas库读取TXT文件

6.4.2 用Pandas库读取Excel文件

6.5 Pandas库的其他常用操作

6.5.1 新增DataFrame数据结构的意义

6.5.2 创建与遍历DataFrame数据结构

6.5.3 检索已有的DataFrame数据结构

6.5.4 DataFrame数据结构的选择操作

6.5.5 处理DataFrame数据结构中的缺失数据

第7章 使用Matplotlib库实现数据可视化

7.1 Matplotlib库简述

7.1.1 Matplotlib库的安装

7.1.2 Matplotlib库常见的问题

7.2 Matplotlib库的基本方法

7.2.1 设定x轴与y轴的相关内容

7.2.2 “点”和“线”样式的设定

7.3 使用Matplotlib库绘制图表

7.3.1 绘制柱状图

7.3.2 绘制直方图

7.3.3 绘制散点图

7.3.4 绘制饼状图

7.3.5 绘制折线图

第8章 数学模型与数理统计

8.1 走进数学模型

8.1.1 什么是数学模型

8.1.2 建立数学模型的一般步骤

8.1.3 数学模型示例

8.2 必要的数理统计知识

8.2.1 样本、总体、个体、统计量

8.2.2 3个重要的分布:χ2分布、t分布、f分布

8.2.3 点估计、矩估计与区间估计

8.2.4 全概率公式和贝叶斯公式

8.2.5 依概率收敛与切比雪夫不等式

第9章 线性回归

9.1 最小二乘法与切比雪夫准则

9.1.1 最小二乘法的数学原理

9.1.2 切比雪夫准则的数学原理

9.2 OLS回归模型

9.2.1 OLS回归模型的概念

9.2.2 如何生成测试数据

9.2.3 OLS回归模型的代码实现和可视化

9.3 LAD回归模型

9.3.1 LAD回归模型的概念

9.3.2 LAD回归模型的代码实现和可视化

9.4 OLS回归模型与LAD回归模型

9.4.1 比较OLS回归模型与LAD回归模型的拟合曲线

9.4.2 简单的一元线性回归分析的代码展示

9.5 从极大似然估计再审视线性回归

9.5.1 从传统的数理统计到线性回归

9.5.2 极大似然估计

9.5.3 假设检验基本概念

9.5.4 区间估计、置信区间和置信限

第10章 分类问题与逻辑回归

10.1 逻辑回归:从分类问题谈起

10.1.1 从线性回归到分类问题

10.1.2 逻辑回归与Sigmoid函数

10.1.3 使用极大似然估计计算Sigmoid函数的损失函数

10.1.4 逻辑回归模型求解的本质

10.2 从梯度上升法与梯度下降法到逻辑回归

10.2.1 梯度上升法和梯度下降法的由来

10.2.2 梯度下降法及梯度上升法的数学原理

10.2.3 用Python实现逻辑回归

10.2.4 题外话:从用Python实现逻辑回归中看psutil库

10.2.5 逻辑回归可视化:绘制决策边界

第11章 模型评估与模型改进

11.1 线性回归模型的评估与改进

11.1.1 线性回归模型的评估

11.1.2 模型改进:从一元线性回归到多元线性回归问题

11.1.3 模型改进:过度拟合与添加、设定惩罚项

11.2 逻辑回归模型的评估与改进

11.2.1 分类模型的评估:查准率、查全率及F-score

11.2.2 分类模型的评估:ROC曲线、AUC指标

11.2.3 模型改进:随机梯度下降法

11.2.4 逻辑回归最终代码展示(使用随机梯度下降法)

第12章 聚类:K-means算法

12.1 K-means算法及相关内容的基本概念

12.1.1 聚类与机器学习的概念

12.1.2 聚类:K-means算法的原理

12.2 K-means算法的Python实现

12.2.1 朴素的K-means算法的Python实现

12.2.2 朴素的K-means算法的Python实现的具体解析

12.2.3 模型改进:使用不同颜色和形状标记不同的簇

12.2.4 K-means算法改进:使用二分K-means算法

第13章 分类:KNN算法

13.1 KNN算法的基本概念

13.1.1 KNN算法的相关概念

13.1.2 KNN算法原理概述

13.2 KNN算法的Python实现

13.2.1 制作测试用例数据集

13.2.2 KNN算法的具体实现

13.2.3 KNN算法的完整代码

13.3 结语:关于数据分析

13.3.1 决策树之前:树的概念

13.3.2 信息熵和决策树

13.3.3 写在最后的话:留给机器学习

Python数据分析从小白到专家是2021年由电子工业出版社出版,作者田越。

得书感谢您对《Python数据分析从小白到专家》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python数据分析入门与实战 电子书
掌握数据分析技巧,运用强大的Python工具,解决工作中繁琐的数据问题。
Python数据分析基础教程 电子书
从数据处理的角度来讲解统计分析。
Python网络爬虫从入门到精通 电子书
适读人群 :Python语言初学者;网络爬虫技术爱好者;数据分析从业人士 内容全面,结构清晰:本书详细介绍了网络爬虫技术的方方面面,讨论了数据抓取、数据处理和数据分析的整个流程。全书结构清晰,坚持理论知识与实践操作结合。 循序渐进,生动简洁:从简单的Python程序示例开始,在网络爬虫的核心主题之下一步步深入,兼顾内容的广度与深度。在行文中,使用生动简洁的阐述方式,力争详略得当。 示例丰富,实战性强:网络爬虫是实践性、操作性非常强的技术,本书将提供丰富的代码来作为读者的参考,同时对必要的术语和代码进行解释。从生活实际出发,选取实用性、趣味性兼具的主题进行网络爬虫实践。
Python从入门到精通(精粹版) 电子书
本书以零基础读者为对象,用范例引导读者学习,深入浅出地介绍了Python的相关知识和实战技能。本书从Python基础入手,介绍了Python的开发环境、各种数据类型的操作方法、流程控制、函数等Python内核技术,以及使用Python处理文件、处理错误与异常等各种应用,最后列举了Python在重要领域的项目实战,内容系统且深入。本书提供与内容同步的教学录像。此外,本书还赠送大量相关学习资料,以便读
Python+Excel职场办公数据分析 电子书
一本适合编程小白学习的职场数据分析宝典。