零基础入门Python数据分析与机器学习

零基础入门Python数据分析与机器学习

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

资深数据分析师撰写,以新版Python3.10作为数据分析与挖掘的编程语言,循序渐进地介绍了Python数据分析的方法与技巧以及机器学习算法及其应用案例。

内容简介

全书首先讲解Python基础语法,以便于从未接触过编程的读者能够快速上手,然后介绍了当前流行的常用数据分析工具,如数值计算工具NumPy、数据处理工具Pandas、数据可视化工具Matplotlib和数据挖掘工具Sklearn等,后介绍了10大常用机器学习算法及其在数据挖掘中的应用,针对每一个算法均给出了案例实现,以便于读者能够学有所用。

本书凝聚作者十余年工作心得,以丰富实例介绍理论知识,并给出大量应用实践,很适合初入数据分析职场的从业者提升技能。

本书也可以作为统计学、数学、经济学、金融学、管理学以及相关理工科专业的本科生、研究生的教学参考书。

作者简介

作者王国平,毕业于上海海洋大学,硕士,从业近十年,主要从事数据可视化、数据挖掘和大数据分析等工作。精通Tableau、Power BI、SPSS、Python等软件与开发工具,已出版《精通Tableau商业数据分析与可视化》《Microsoft Power BI 数据可视化与数据分析》等多本专著。

章节目录

版权信息

内容简介

作者简介

前言

第1章 构建数据分析开发环境

1.1 数据分析概述

1.1.1 为什么要进行数据分析

1.1.2 数据分析的流程与思维

1.2 开发环境的构建

1.2.1 安装Anaconda

1.2.2 安装Jupyter库

1.2.3 安装PyCharm社区版

1.2.4 包管理工具

1.2.5 环境测试

1.3 必会的Python数据分析包

1.3.1 NumPy数组操作

1.3.2 Pandas数据清洗

1.3.3 Matplotlib数据可视化

1.3.4 Sklearn数据建模

1.4 一个简单的数据分析案例

1.5 小结与课后练习

第2章 Python核心基础

2.1 Python数据类型

2.1.1 数值类型

2.1.2 字符串类型

2.1.3 列表类型

2.1.4 元组类型

2.1.5 集合类型

2.1.6 字典类型

2.2 Python基础语法

2.2.1 代码行与缩进

2.2.2 条件if及if嵌套

2.2.3 循环:while与for

2.2.4 格式化:format()与%

2.3 Python高阶函数

2.3.1 map()函数

2.3.2 reduce()函数

2.3.3 filter()函数

2.3.4 sorted()函数

2.4 Python编程技巧

2.4.1 自动补全程序

2.4.2 变量值的互换

2.4.3 列表解析式

2.4.4 元素序列解包

2.5 小结与课后练习

第3章 Python数据分析基础

3.1 数据的读取

3.1.1 本地离线数据

3.1.2 Web在线数据

3.1.3 常用数据库数据

3.2 数据的索引

3.2.1 创建与查看索引

3.2.2 索引重构与恢复

3.2.3 索引调整与排序

3.3 数据的切片

3.3.1 提取多列数据

3.3.2 提取多行数据

3.3.3 提取区域数据

3.4 数据的聚合

3.4.1 指定列数据统计

3.4.2 多字段分组统计

3.4.3 自定义聚合指标

3.5 小结与课后练习

第4章 NumPy数组操作

4.1 NumPy索引与切片

4.1.1 数组的索引

4.1.2 布尔型索引

4.1.3 花式索引

4.1.4 数组的切片

4.1.5 设置切片步长

4.2 NumPy维数变换

4.2.1 reshape()函数

4.2.2 shape()函数

4.2.3 resize()函数

4.2.4 ravel()函数

4.2.5 flatten()函数

4.3 NumPy广播机制

4.3.1 广播

4.3.2 广播机制

4.3.3 广播机制变化过程

4.3.4 广播不兼容

4.4 NumPy矩阵运算

4.4.1 矩阵概述

4.4.2 矩阵的乘法

4.4.3 矩阵的内积

4.4.4 矩阵的外积

4.5 小结与课后练习

第5章 Pandas数据清洗

5.1 重复值检测与处理

5.1.1 重复值的检测

5.1.2 重复值的处理

5.2 缺失值检测与处理

5.2.1 缺失值的检测

5.2.2 缺失值的处理

5.3 异常值检测与处理

5.3.1 异常值的检测

5.3.2 异常值的处理

5.4 金融数据的处理实战

5.4.1 读取上证指数数据

5.4.2 提取特定日期数据

5.4.3 填充非交易日数据

5.5 小结与课后练习

第6章 Matplotlib数据可视化

6.1 图形参数设置

6.1.1 设置图形线条

6.1.2 设置图形坐标轴

6.1.3 设置图形图例

6.2 绘图参数文件及主要函数

6.2.1 修改绘图参数文件

6.2.2 主要绘图函数简介

6.2.3 绘图函数应用案例——分析某企业2020年销售额增长情况

6.3 Matplotlib图形整合

6.3.1 subplot()函数

6.3.2 subplots()函数

6.3.3 图形整合实战——分析2020年某企业产品销售的区域差异性

6.4 Matplotlib可视化案例

6.4.1 商品区域销售额条形图

6.4.2 商品每周利润率折线图

6.4.3 商品利润贡献率饼图

6.5 小结与课后练习

第7章 Scikit-Learn机器学习

7.1 机器学习及其类型

7.1.1 机器学习的特点

7.1.2 机器学习的分类

7.1.3 机器学习的应用

7.2 Sklearn机器学习概述

7.2.1 Sklearn的基本概念

7.2.2 Sklearn的主要算法

7.2.3 选择合适的算法

7.3 Sklearn机器学习流程

7.3.1 获取数据

7.3.2 预处理数据

7.3.3 训练模型

7.3.4 评估模型

7.3.5 优化模型

7.3.6 应用模型

7.4 Sklearn自带的数据集

7.4.1 鸢尾花数据集简介

7.4.2 乳腺癌数据集简介

7.4.3 波士顿房价数据集简介

7.4.4 糖尿病数据集简介

7.4.5 手写数字数据集简介

7.4.6 红酒数据集简介

7.5 小结与课后练习

第8章 监督式机器学习

8.1 线性回归及其案例

8.1.1 线性回归简介

8.1.2 线性回归的建模

8.1.3 汽车价格的预测

8.2 逻辑回归及其案例

8.2.1 逻辑回归简介

8.2.2 逻辑回归的建模

8.2.3 客户收入的预测

8.3 Lasso回归与Ridge回归

8.3.1 Lasso回归及案例

8.3.2 Ridge回归及案例

8.3.3 两种回归的比较

8.4 决策树及其案例

8.4.1 决策树简介

8.4.2 决策树的建模

8.4.3 蘑菇类型的预测

8.5 K近邻算法及其案例

8.5.1 K近邻算法简介

8.5.2 K近邻算法的建模

8.5.3 乳腺癌患者的分类

8.6 支持向量机及其案例

8.6.1 支持向量机简介

8.6.2 支持向量机的建模

8.6.3 乳腺癌患者的分类

8.7 小结与课后练习

第9章 无监督式机器学习

9.1 聚类分析及其案例

9.1.1 K均值聚类算法及案例

9.1.2 使用手肘法判断聚类数

9.1.3 轮廓系数法判断聚类数

9.2 因子分析及其案例

9.2.1 因子分析概述

9.2.2 因子分析的建模

9.2.3 地区竞争力的因子分析

9.3 主成分分析及其案例

9.3.1 主成分分析概述

9.3.2 主成分分析的建模

9.3.3 乳腺癌患者的主成分分析

9.4 关联分析及其案例

9.4.1 关联分析概述

9.4.2 关联分析的建模

9.4.3 电商商品购物篮分析

9.5 离群点检测及其案例

9.5.1 离群点检测概述

9.5.2 椭圆模型拟合及案例

9.5.3 局部离群因子及案例

9.6 双聚类分析及其案例

9.6.1 双聚类分析概述

9.6.2 联合谱聚类及案例

9.6.3 谱双聚类及案例

9.7 小结与课后练习

第10章 模型评估与调优

10.1 机器学习的挑战

10.1.1 训练样本的大小

10.1.2 数据的不平衡

10.1.3 异常值的处理

10.1.4 模型的过拟合

10.1.5 特征的选择

10.2 模型的评估方法

10.2.1 混淆矩阵及案例

10.2.2 模型评估指标及案例

10.2.3 ROC曲线及案例

10.2.4 AUC及案例

10.2.5 R平方及案例

10.2.6 残差及案例

10.3 模型的调优方法

10.3.1 交叉验证及案例

10.3.2 网格搜索及案例

10.3.3 随机搜索及案例

10.4 小结与课后练习

第11章 Python中文文本分析

11.1 中文结巴分词

11.1.1 文本分词模式

11.1.2 自定义停用词

11.2 中文关键词提取

11.2.1 TF-IDF算法

11.2.2 TextRank算法

11.3 中文词向量生成

11.3.1 训练词向量模型

11.3.2 计算文本词向量

11.4 中文情感分析

11.4.1 文本情感建模

11.4.2 文本情感预测

11.5 小结与课后练习

附录A Python 3.10.0及第三方库安装

附录B Python常用第三方工具包简介

B.1 数据分析类包

B.2 数据可视化类包

B.3 机器学习类包

零基础入门Python数据分析与机器学习是2021年由清华大学出版社出版,作者王国平。

得书感谢您对《零基础入门Python数据分析与机器学习》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python医学数据分析入门 电子书
数据分析是当今大数据时代最关键的技术,其广泛应用于包括医学在内的各个领域。
Python高手修炼之道:数据处理与机器学习实战 电子书
适读人群 :1.没有编程知识的新手 不同于一般的基础语法讲解教程,本书并未将Python 开发限定于某个集成开发工具(IDE)中,而是采用交互式编程的方式来强化读者对语言特性的理解,帮助新手读者真正理解Python 语言和Python 编程。2.从未接触过Python 语言,但了解一点编程知识的初学者 本书通过对基础知识高度的提炼和概括,以避免初学者陷入低级且冗长的细节知识点而心生懈怠;同时,本书为初学者规划了从初级到高级的编程技能提升路线图。3.具有一定基础的Python 程序员 本书可以作为案头工具书来使用。本书从基础语法、基本技能讲起,涵盖了科学计算、数据处理、机器学习等领域,示例代码涉及30 余个模块的使用。 构建从Python入门到数据分析到机器学习的路线图,入门有章可循; 1.讲解独到,常见盲点趣解析 作者基于多年的经验积累,善于总结概括初学Python过程中的误区。 2.内容全面,常用工具全涵盖 书中介绍的Python工具包覆盖Numpy、Matplotlib、Pandas、SciPy、Scikit-Learn,方便读者拓展实用技能、掌握工作利器。 3.拓展训练,重点知识有强化 语感训练100题、Python内置函数(类)手册、从新手到高手的100个模块,强化知识点的掌握。 4.代码完整,随时动手可复现 本书提供了完整、可验证的代码,方便读者动手练习并强化理解。
Python数据分析基础教程 电子书
从数据处理的角度来讲解统计分析。
机器学习与大数据技术 电子书
本书较为全面地论述了机器学习、深度学习、大数据技术与图像处理技术的基本概念、基础原理和基本方法,以农业为应用场景,力求通缩易懂,深入浅出的介绍了与机器学习、深度学习、大数据技术与图像处理技术问题联系密切的内容。全书主要分为4大部分:机器学习、大数据技术和图像处理技术的基础知识;经典的机器学习基本理论和方法,以及深度学习和大数据未来的发展;实践应用;机器学习和人工智能的数学基础与编程基础。
Python机器学习经典实例 电子书
用流行的Python库scikitlearn解决机器学习问题。