Python数据挖掘入门与实践(第2版)

Python数据挖掘入门与实践(第2版)

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

一本书对数据挖掘进行了详细地入门引导。

内容简介

本书以实践为宗旨,对数据挖掘进行了详细地入门引导。本书囊括了比赛结果预测、电影推荐、特征提取、好友推荐、破解验证码、作者归属、新闻聚类等大量经典案例,并以此为基础提供了大量练习和额外活动。在练习中,本书介绍了数据挖掘的基本工具和基本方法;在额外活动中,本书为深入了解数据挖掘指明了方向。本书适合希望应用Python进行数据挖掘的程序员阅读。

作者简介

作者罗伯特·莱顿,计算机科学博士,网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程,参与过scikit-learn库等很多开源库的开发,曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作,挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。

章节目录

版权信息

数字版权声明

内容提要

译者序

前言

致谢

第1章 数据挖掘入门

1.1 什么是数据挖掘

1.2 使用Python和Jupyter Notebook

1.2.1 安装Python

1.2.2 安装Jupyter Notebook

1.2.3 安装scikit-learn

1.3 亲和性分析的简单示例

什么是亲和性分析

1.4 商品推荐

1.4.1 用NumPy加载数据集

1.4.2 实现规则的简单排序

1.4.3 挑选最佳规则

1.5 分类的简单示例

1.6 什么是分类

1.6.1 准备数据集

1.6.2 实现OneR算法

1.6.3 测试算法功能

1.7 本章小结

第2章 用scikit-learn估计器解决分类问题

2.1 scikit-learn估计器

2.1.1 最近邻算法

2.1.2 距离度量

2.1.3 加载数据集

2.1.4 形成标准的工作流程

2.1.5 运行算法

2.1.6 设置参数

2.2 预处理

2.2.1 标准预处理

2.2.2 组装成型

2.3 流水线

2.4 本章小结

第3章 用决策树预测获胜球队

3.1 加载数据集

3.1.1 收集数据

3.1.2 用pandas加载数据集

3.1.3 清洗数据集

3.1.4 提取新特征

3.2 决策树

3.2.1 决策树的参数

3.2.2 决策树的使用

3.3 体育赛事结果预测

组装成型

3.4 随机森林

3.4.1 集成学习的原理

3.4.2 设置随机森林的参数

3.4.3 应用随机森林

3.4.4 创建特征

3.5 本章小结

第4章 用亲和性分析推荐电影

4.1 亲和性分析

4.1.1 亲和性分析算法

4.1.2 总体方法

4.2 电影推荐问题

获取数据集

4.3 Apriori算法的原理与实现

4.3.1 Apriori算法的基本思路

4.3.2 实现Apriori算法

4.3.3 提取关联规则

4.3.4 评估关联规则

4.4 本章小结

第5章 特征与scikit-learn转换器

5.1 特征提取

5.1.1 用模型表述现实

5.1.2 常见的特征模式

5.1.3 创建好的特征

5.2 特征的选取

选取最佳单个特征

5.3 特征创建

5.4 主成分分析

5.5 创建自己的转换器

5.5.1 转换器API

5.5.2 实现转换器

5.6 单元测试

5.7 组装成型

5.8 本章小结

第6章 用朴素贝叶斯算法探索社交媒体

6.1 消歧

6.2 从社交媒体下载数据

6.2.1 加载数据集并分类

6.2.2 创建可重现的Twitter数据集

6.3 文本转换器

6.3.1 词袋模型

6.3.2 n元语法特征

6.3.3 其他文本特征

6.4 朴素贝叶斯

6.4.1 理解贝叶斯定理

6.4.2 朴素贝叶斯算法

6.4.3 原理展示

6.5 朴素贝叶斯的应用

6.5.1 提取单词计数

6.5.2 把字典转换成矩阵

6.5.3 组装成型

6.5.4 用F1 score评估算法

6.6 从模型中找出有用的特征

6.7 本章小结

第7章 用图挖掘实现推荐关注

7.1 加载数据集

用现有模型分类

7.2 从Twitter获取关注者信息

构建网络

7.3 创建图

创建相似度图

7.4 寻找子图

7.4.1 连通分量

7.4.2 优化准则

7.5 本章小结

第8章 用神经网络识别验证码

8.1 人工神经网络

神经网络简介

8.2 创建数据集

8.2.1 绘制简单的验证码

8.2.2 按字母分割图像

8.2.3 创建训练数据集

8.3 训练与分类

反向传播算法

8.4 预测单词

8.4.1 用词典提升准确率

8.4.2 单词相似度的排名机制

8.4.3 组装成型

8.5 本章小结

第9章 作者归属问题

9.1 文档的作者归属

9.1.1 应用与场景

9.1.2 作者归属

9.2 获取数据

9.3 功能词的使用

9.3.1 统计功能词

9.3.2 用功能词分类

9.4 支持向量机

9.4.1 用支持向量机分类

9.4.2 核函数

9.5 字符n元语法

提取字符n元语法

9.6 安然(Enron)数据集

9.6.1 获取安然数据集

9.6.2 创建数据集加载函数

9.7 组装成型

9.8 评估

9.9 本章小结

第10章 聚类新闻文章

10.1 发现热门话题

10.1.1 用Web API获取数据

10.1.2 把reddit作为数据源

10.1.3 获取数据

10.2 从任意网站提取文本

10.2.1 寻找任意网站中的新闻报道内容

10.2.2 提取内容

10.3 为新闻文章分组

10.4 k-均值算法

10.4.1 评估结果

10.4.2 从聚类簇中提取话题信息

10.4.3 把聚类算法作为转换器

10.5 聚类集成

10.5.1 证据积累方法

10.5.2 工作原理

10.5.3 算法实现

10.6 在线学习

算法实现

10.7 本章小结

第11章 用深度神经网络实现图像中的对象检测

11.1 对象分类

使用案例

11.2 应用场景

11.3 深度神经网络

11.3.1 直观感受

11.3.2 实现深度神经网络

11.4 TensorFlow简介

11.5 使用Keras

卷积神经网络

11.6 GPU优化

11.6.1 适用GPU的计算场景

11.6.2 在GPU上运行代码

11.6.3 设置环境

11.7 应用

11.7.1 获取数据

11.7.2 创建神经网络

11.7.3 组装成型

11.8 本章小结

第12章 大数据处理

12.1 大数据

大数据的应用

12.2 MapReduce

12.2.1 直观感受

12.2.2 Hadoop MapReduce

12.3 应用MapReduce

获取数据

12.4 朴素贝叶斯预测

mrjob包

12.5 提取博客文章

12.6 训练朴素贝叶斯

12.7 组装成型

12.8 在亚马逊EMR基础设施上训练

12.9 本章小结

附录A 下一步工作

A.1 数据挖掘入门

A.1.1 scikit-learn教程

A.1.2 扩展Jupyter Notebook

A.1.3 更多数据集

A.1.4 其他评估指标

A.1.5 更多应用思路

A.2 用scikit-learn估计器解决分类问题

A.2.1 最近邻算法的伸缩性

A.2.2 更复杂的流水线

A.2.3 比较分类器

A.2.4 自动学习

A.3 用决策树预测获胜球队

A.3.1 更复杂的特征

A.3.2 Dask

A.3.3 研究

A.4 用亲和性分析推荐电影

A.4.1 新数据集

A.4.2 等价类变换算法

A.4.3 协同过滤

A.5 特征与scikit-learn转换器

A.5.1 增加噪声

A.5.2 Vowpal Wabbit

A.5.3 word2vec

A.6 用朴素贝叶斯算法探索社交媒体

A.6.1 垃圾信息检测

A.6.2 自然语言处理与词性标注

A.7 用图挖掘实现推荐关注

A.7.1 更复杂的算法

A.7.2 NetworkX

A.8 用神经网络识别验证码

A.8.1 更好(更坏?)的验证码

A.8.2 深度神经网络

A.8.3 强化学习

A.9 作者归属问题

A.9.1 增大样本

A.9.2 博客数据集

A.9.3 局部n元语法

A.10 聚类新闻文章

A.10.1 聚类的评估

A.10.2 时域分析

A.10.3 实时聚类

A.11 用深度神经网络实现图像中的对象检测

A.11.1 Mahotas

A.11.2 Magenta

A.12 大数据处理

A.12.1 Hadoop课程

A.12.2 Pydoop

A.12.3 推荐引擎

A.12.4 W.I.L.L

A.13 更多资源

A.13.1 Kaggle竞赛

A.13.2 Coursera

Python数据挖掘入门与实践(第2版)是2018年由人民邮电出版社·图灵出品出版,作者[澳]罗伯特·莱顿。

得书感谢您对《Python数据挖掘入门与实践(第2版)》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
HBase入门与实践(第2版) 电子书
本书以精练的语言介绍了HBase的基础知识。
大数据时代的数据挖掘 电子书
(1)内容全面,覆盖当前数据挖掘的主要应用。在介绍每个应用案例时,详细阐述应用的背景,该领域中数据的来源和特点,数据采集与预处理方式,应用领域中数据挖掘的任务和实施数据挖掘技术的难点。同时提供相应的数据挖掘算法分析、工具设计以及系统实现。 (2)条理清晰、便于理解。一方面,面向热爱和关心数据挖掘技术的学术界和工业界读者,帮助他们更好地理解研究的目的和应用的基础;另一方面,让没有太多相关技术背景的读者可以通过阅读本书能够了解数据挖掘的意义和价值,可以看出数据挖掘是如何被广泛地应用于实际案例并成为解决各种问题的核心工具。
PowerBI数据挖掘与可视化分析 电子书
“人人都是数据分析师”系列,深入浅出讲解Power BI应用和秘诀,让你的数据“狂飙”。
机器学习与Python实践 电子书
机器学习理论实践全书,12章内容丰富,适合各层次读者。
Python数据分析与应用 电子书
本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步展开介绍相关的理论知识点,推导生成可行的解决方案, 后落实在任务实现环节。 全书大部分章节紧扣任务需求展开,不堆积知识点,着重于解决问题时思路的启发与方案的实施。通过从任务需求到实现这一完整工作流程的体验,帮助读者真正理解与消化Python数据分析与应用。 书中案例全部源于企业真实项目,可操作性强,引导读者融会贯通,并提供源代码等相关学习资源,帮助读者快速掌握大数据相关技能。