Python预测分析与机器学习

Python预测分析与机器学习

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书从理解问题定义、了解数据内的高层信息、数据清理、视化数据,到基础建模、模型优化,分享一个数据分析师的视角与思路。

内容简介

全书共8章。第1章对预测分析的流程进行一个高层次的概述。第2章介绍本书需要安装使用的库,并讲解数据清理步骤的执行。第3章讲解基础建模需考虑的细节,结合第4章的模型选择,可以搭建一个基础的预测管道。第5章和第6章分别从模型和数据的角度讲解如何优化预测表现。第7章讲解时间序列这一特殊数据的预测方法。最后,第8章总结全书学习到的内容,解决一个实战问题。

本书面向3类读者。第1类,有编程基础但毫无数据科学背景,有意入门的读者;第2类,有数据科学理论基础,有意进入实操的读者,如刚毕业没有业界经验的学生;第3类,有数据科学理论基础与实操经验,但日常工作集中在数据分析管道中的数据分析师。

作者简介

编著者王沁晨,多伦多大学圣乔治校区计算机专业,曾在加拿大零售企业Loblaw Companies担任机器学习数据分析师,从公司传统的大型数据库中筛选有效信息、清理数据、人工数据挖掘、视化,到基础建模、模型优化、数据再筛选,再到结合商业需求创造扩展性强的实用管线,让项目从理论性的头脑风暴变现为商业价值。

章节目录

版权信息

内容简介

作者简介

前言

第1章 预测分析与机器学习的实用价值

1.1 人工智能、机器学习与数据分析的关系

1.2 什么是预测分析

1.3 预测分析在各行业中的应用

1.4 预测分析流程概览

1.5 小结

第2章 数据清理

2.1 建立编程环境

2.1.1 Anaconda简介及安装

2.1.2 Jupyter Notebook简介及安装

2.1.3 Pandas简介及安装

2.1.4 scikit-learn简介及安装

2.1.5 XGBoost、LightGBM、CatBoost简介及安装

2.1.6 TensorFlow简介及安装

2.2 面对异构数据如何下手

2.2.1 什么是异构数据

2.2.2 如何处理异构数据

2.3 数据误差

2.3.1 各类数据误差及其影响

2.3.2 如何处理数据误差

2.4 数据重新格式化

第3章 基础建模

3.1 判断何为X和y

3.1.1 X和y的定义

3.1.2 X和y的选择对预测的影响

3.2 训练集、验证集与测试集

3.2.1 三者的定义及关系

3.2.2 如何使用sklearn分离3个集

3.2.3 如何使用Pandas手动分离3个集

3.3 数据泄露

3.3.1 不同类型的数据泄露

3.3.2 发现并避免目标泄露

3.3.3 避免训练集与测试集的相互污染

3.4 偏差与方差

3.4.1 定义偏差与方差

3.4.2 过拟合与欠拟合

3.4.3 实践中的过拟合与欠拟合

3.5 小结

第4章 模型选择

4.1 朴素贝叶斯分类器

4.2 关联规则算法

4.3 K近邻算法

4.4 K均值聚类算法

4.5 回归算法

4.5.1 线性回归

4.5.2 罗吉斯蒂回归

4.6 深度神经网络

4.7 决策树

4.8 森林算法

4.8.1 随机森林

4.8.2 极端随机树

4.8.3 孤立森林

4.9 提升方法

4.9.1 Adaboost

4.9.2 XGBoost和LightGBM

4.9.3 CatBoost

第5章 模型优化

5.1 损失函数和衡量指标

5.1.1 分类问题的衡量指标

5.1.2 回归问题的衡量指标

5.1.3 损失函数

5.2 K折交叉验证

5.3 超参数调试

5.3.1 网格搜索法

5.3.2 随机搜索法

5.3.3 遗传算法

5.4 函数正则化

第6章 数据优化

6.1 数据规范化

6.2 异常值清理

6.3 平滑法

6.4 聚类

6.5 特征工程

第7章 时间序列

7.1 时间序列简介

7.2 时间序列数据探索

7.2.1 加法模型下的可视化图

7.2.2 乘法模型下的部分可视化图

7.3 时间序列特征提取

7.3.1 时间特征

7.3.2 滞后特征

7.3.3 基于移动窗口的特征

7.3.4 基于展开窗口的特征

7.4 时间序列模型

7.4.1 自回归模型

7.4.2 滑动平均模型

7.4.3 整合移动平均自回归模型

7.4.4 季节性整合移动平均自回归模型

第8章 实战

8.1 M5预测分析比赛介绍

8.1.1 数据介绍

8.1.2 评估标准

8.2 数据清理

8.3 基础建模

8.4 优化

图书推荐

Python预测分析与机器学习是2022年由清华大学出版社出版,作者王沁晨 编著。

得书感谢您对《Python预测分析与机器学习》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
机器学习 电子书
机器学习基础与高级内容全面讲解,实例丰富,易于学习巩固。
机器学习实战 电子书
《机器学习实战》面向日常任务的高效实战内容,介绍并实现机器学习的主流算法。
实用机器学习 电子书
大数据时代为机器学习的应用提供了广阔的空间,各行各业涉及数据分析的工作都需要使用机器学习算法。本书围绕实际数据分析的流程展开,着重介绍数据探索、数据预处理和常用的机器学习算法模型。本书从解决实际问题的角度出发,介绍回归算法、分类算法、推荐算法、排序算法和集成学习算法。在介绍每种机器学习算法模型时,书中不但阐述基本原理,而且讨论模型的评价与选择。为方便读者学习各种算法,本书介绍了R语言中相应的软件包
机器学习与大数据技术 电子书
本书较为全面地论述了机器学习、深度学习、大数据技术与图像处理技术的基本概念、基础原理和基本方法,以农业为应用场景,力求通缩易懂,深入浅出的介绍了与机器学习、深度学习、大数据技术与图像处理技术问题联系密切的内容。全书主要分为4大部分:机器学习、大数据技术和图像处理技术的基础知识;经典的机器学习基本理论和方法,以及深度学习和大数据未来的发展;实践应用;机器学习和人工智能的数学基础与编程基础。
Python深度学习与项目实战 电子书
本书基于Python以及两个深度学习框架Keras与TensorFlow,讲述深度学习在实际项目中的应用。本书共10章,首先介绍线性回归模型、逻辑回归模型、Softmax多分类器,然后讲述全连接神经网络、神经网络模型的优化、卷积神经网络、循环神经网络,最后讨论自编码模型、对抗生成网络、深度强化学习。