数据分析原理与实践——基于经典算法及Python编程实现

数据分析原理与实践——基于经典算法及Python编程实现

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书深入浅出讲解数据分析师所需技能,满足多专业师生教学与学习需求。

内容简介

本书主要采用理论学习与实践操作并重、上层应用与底层原理共存的方式讲解一名合格的数据分析师需要掌握的基本能力及素质,包括基础理论、关联规则分析、回归分析、分类分析、聚类分析、集成学习、自然语言处理、图像处理和深度学习。在编写过程中不仅充分借鉴了国内外著名大学设立的相关课程、专家学者的代表性成果及近几年的热门畅销书,而且也考虑到了国内相关课程的教学以及数据人才的自学成长的需求。本书可以满足数据科学与大数据技术、大数据管理与应用、计算机科学与技术、管理工程、工商管理、数据统计、数据分析、信息管理与信息系统、商业分析等多个专业的教师、学生的教学和学习需要。

章节目录

封面

前折页

书名页

版权

启迪数字学院系列丛书编委会

前言

目录

第1章 数据分析概述

1.1 数据分析的基本类型

1.2 数据分析与机器学习

1.2.1 统计学与机器学习

1.2.3 机器学习中的算法、模型、参数和超参数

1.2.4 数据分析中的基础算法

1.2.5 数据分析中的高级算法

1.3 数据分析的主要流程

1.4 数据分析中的算法选择

1.5 数据分析中常用的Python包

1.5.1 NumPy

1.5.2 pandas

1.5.3 matplotlib

1.5.4 Seaborn

1.5.5 statsmodels

1.5.6 scikit-learn

1.5.7 jieba

1.5.8 OpenCV

1.5.9 TensorFlow和PyTorch

1.6 数据分析的注意事项

1.7 数据分析的现状与趋势

1.8 习题

1.9 主要参考文献及推荐阅读书目

第2章 关联规则分析

2.1 应用场景

2.2 算法原理

2.2.1 Apriori算法的假设

2.2.2 Apriori算法的流程

2.3 核心术语

2.3.1 事务型数据

2.3.2 项集

2.3.3 支持度

2.3.4 置信度

2.3.5 提升度

2.3.6 关联规则

2.4 Python编程实践——购物车分析

2.4.1 业务理解

2.4.2 数据读入

2.4.3 数据理解

2.4.4 数据预处理

2.4.5 生成频繁项集

2.4.6 计算关联度

2.4.7 可视化

2.5 重点与难点解读

2.6 习题

2.7 主要参考文献及推荐阅读书目

第3章 回归分析

3.1 应用场景

3.2 算法原理

3.2.1 基本思路

3.2.2 评价方法

3.3 核心术语

3.3.1 回归分析中常用的统计量

3.3.2 特征矩阵与目标向量

3.3.3 过拟合与欠拟合

3.3.4 高杠杆点、离群点和强影响点

3.4 Python编程实践

3.4.1 线性回归——女性身高与体重数据分析

3.4.2 多元回归——广告收入数据分析

3.4.3 泊松回归——航班数据分析

3.5 重点与难点解读

3.5.1 参数解读——线性回归算法

3.5.2 Z-Score标准化

3.5.3 方差

3.5.4 相关系数

3.5.5 泊松分布

3.5.6 L1和L2正则化

3.5.7 闵氏距离、欧氏距离、曼哈顿距离和切比雪夫距离

3.6 习题

3.7 主要参考文献及推荐阅读书目

第4章 分类分析

4.1 应用场景

4.2 算法原理

4.1.1 KNN

4.1.2 贝叶斯分类

4.1.3 支持向量机

4.1.4 逻辑回归

4.3 核心术语

4.3.1 偏差和方差之间的权衡

4.3.2 学习曲线

4.3.3 混淆矩阵

4.3.4 ROC曲线与AUC面积

4.3.5 贝叶斯理论

4.3.6 核函数及核技巧

4.4 Python编程实践——病例自动诊断分析

4.4.1 使用KNN算法实现

4.4.2 使用贝叶斯分类算法实现

4.4.3 使用SVM算法实现

4.4.4 使用逻辑回归算法实现

4.5 重点与难点解读

4.5.1 参数解读——KNN、贝叶斯分类、SVM和逻辑回归算法

4.5.2 数据标准化处理

4.5.3 混淆矩阵及分类算法的评价指标

4.5.4 最大似然估计

4.5.5 判别模型与生成模型

4.5.6 类别不平衡问题

4.5.7 KD Tree与Ball Tree

4.5.8 GridSearchCV及其原理

4.5.9 GaussianNB、MultinomialNB和BernoulliNB的区别

4.5.10 LabelEncoder及其原理

4.6 习题

4.7 主要参考文献及推荐阅读书目

第5章 聚类分析

5.1 应用场景

5.2 算法原理

5.2.1 k-means算法

5.2.2 聚类效果的评价

5.3 核心术语

5.4 Python编程实践——蛋白质消费特征分析

5.4.1 业务理解

5.4.2 数据读入

5.4.3 数据理解

5.4.4 数据准备

5.4.5 模型训练

5.4.6 模型评价

5.4.7 模型调参

5.4.8 模型预测

5.5 重点与难点解读

5.5.1 参数解读——k-means算法

5.5.2 k-means++方法

5.5.3 elkan方法

5.6 习题

5.7 主要参考文献及推荐阅读书目

第6章 集成学习

6.1 应用场景

6.2 算法原理

6.2.1 随机森林

6.2.2 XGBoost

6.3 核心术语

6.4 Python编程实践——房屋价格预测分析

6.4.1 使用随机森林算法实现

6.4.2 使用XGBoost实现

6.5 重点与难点解读

6.5.1 参数解读——随机森林和XGBoost

6.5.2 纯度最大化

6.5.3 数据标准化

6.5.4 泰勒展开式

6.5.5 集成学习中几个注意事项

6.6 习题

6.7 主要参考文献及推荐阅读书目

第7章 自然语言处理

7.1 应用场景

7.2 算法原理

7.2.1 中文分词

7.2.2 词袋模型

7.2.3 N-grams模型

7.2.4 TF-IDF算法

7.2.5 文本规范化

7.2.6 词性标注

7.3 核心术语

7.4 Python编程实践——2021年政府工作报告分析

7.4.1 业务理解

7.4.2 数据读入

7.4.3 分词处理

7.4.4 添加自定义词汇

7.4.5 词性标注

7.4.6 停用词处理

7.4.7 词性分布分析

7.4.8 高频词分析

7.4.9 关键词抽取

7.4.10 绘制词云图

7.5 重点与难点解读

7.5.1 NLTK的词性标注

7.5.2 NLTK的功能模块

7.6 习题

7.7 主要参考文献及推荐阅读书目

第8章 图像处理

8.1 应用场景

8.2 算法原理

8.2.1 建模阶段

8.2.2 检测阶段

8.3 核心术语

8.4 Python编程实践——人脸检测分析

8.4.1 安装并导入OpenCV-python包

8.4.2 读取图像文件

8.4.3 将RGB图像转换为灰度图

8.4.4 人脸检测与矩阵标识

8.4.5 图像显示

8.4.6 图像保存

8.5 重点与难点解读

8.5.1 参数解读——OpenCV

8.5.2 AdaBoost算法

8.5.3 基于OpenCV和CNN的图像处理的对比

8.5.4 Haar特征和LBP特征的对比分析

8.5.5 AdaBoost算法和XGboost算法的主要区别

8.6 习题

8.7 主要参考文献及推荐阅读书目

第9章 深度学习

9.1 应用场景

9.2 算法原理

9.2.1 全连接神经网络及其缺点

9.2.2 全连接神经网络的改进及卷积神经网络的提出

9.2.3 卷积神经网络的基本思路

9.2.4 CNN的整体流程

9.3 核心术语

9.4 Python编程实践——手写数字识别分析

9.4.1 业务理解

9.4.2 数据读入及理解

9.4.3 数据准备

9.4.4 数据理解

9.4.5 定义CNN的学习框架

9.4.6 执行CNN学习及模型训练

9.4.7 模型评价

9.4.8 模型预测

9.5 重点与难点解读

9.5.1 参数解读——CNN算法

9.5.2 机器学习中的性能与可解释性的矛盾

9.5.3 随机梯度下降及学习率

9.5.4 One-hot encoding

9.5.5 端到端的学习

9.5.6 CNN与其他深度学习方法的区别及联系

9.5.7 CNN算法设置超参数的经验法则

9.6 习题

9.7 主要参考文献及推荐阅读书目

附录 习题参考答案

后折页

封底

数据分析原理与实践——基于经典算法及Python编程实现是2022年由机械工业出版社出版,作者朝乐门。

得书感谢您对《数据分析原理与实践——基于经典算法及Python编程实现》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python编程与数据分析应用(微课版) 电子书
本书共9章,主要内容包括:Python语法基础、Python数据结构、函数和类、正则表达式与格式化输出、Numpy和Pandas、数据处理与分析、网络爬虫、数据可视化、应用案例分析。
Python深度学习:逻辑、算法与编程实战 电子书
机器学习是人工智能领域一个极其重要的研究方向,而深度学习则是机器学习中一个非常接近AI的分支,其思路在于建立进行分析学习的神经网络,模仿人脑感知与组织的方式,根据输入数据做出决策。深度学习在快速的发展过程中,不断有与其相关的产品推向市场,显然,深度学习的应用将会日趋广泛。《Python深度学习:逻辑、算法与编程实战》是关于深度学习的理论、算法、应用的实战教程,内容涵盖深度学习的语言、学习环境、典型
数据结构与算法(Python版) 电子书
本书讲述了Python语言与数据结构。
人工智能原理与实践:基于Python语言和TensorFlow 电子书
本书是一本针对高校学生的绝佳TensorFlow学习教材。作者结合众多高质量的代码,生动讲解了TensorFlow的底层原理,并从实际应用问题入手,从实践的角度出发,通过具体的TensorFlow案例程序介绍常见的模型和应用解决办法。同时,在教材中还介绍了模型部署和编程过程中所用到的诸多开发技巧。是学习和掌握人工智能这个最新、最火的IT领域的推荐图书。
Python数据分析与应用 电子书
本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步展开介绍相关的理论知识点,推导生成可行的解决方案, 后落实在任务实现环节。 全书大部分章节紧扣任务需求展开,不堆积知识点,着重于解决问题时思路的启发与方案的实施。通过从任务需求到实现这一完整工作流程的体验,帮助读者真正理解与消化Python数据分析与应用。 书中案例全部源于企业真实项目,可操作性强,引导读者融会贯通,并提供源代码等相关学习资源,帮助读者快速掌握大数据相关技能。