数据挖掘

数据挖掘

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

中国大数据专家委员会刘鹏教授联合全国上百家高校从事一线教学科研任务的教师,一起编撰的高级大数据人才培养从书,本书的定位是大数据挖掘技术与应用。

内容简介

本书系统地介绍了数据挖掘算法理论与方法、工具和应用,包括经典数据挖掘算法,大数据环境下常用数据挖掘算法的优化,大数据新常态下催生的数据分析方法(如推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析)、工具与应用。

本书适合作为相关专业本科和研究生教材。高职高专学校也可以选用部分内容开展教学。本书也很适合作为大数据分析研发人员的自学书籍。

作者简介

编者王朝霞,教授,清华大学博士毕业,现任中国信息协会大数据分会副会长、南京大数据研究院院长、中国大数据应用联盟人工智能专家委员会主任、中国大数据专家委员会委员。

章节目录

版权信息

内容简介

编写组

总序

前言

第1章 绪论

1.1 数据挖掘概述

1.1.1 数据挖掘的概念

1.1.2 大数据环境下的数据挖掘

1.1.3 数据挖掘的特性

1.1.4 数据挖掘的过程

1.2 数据挖掘起源及发展历史

1.3 数据挖掘常用工具

1.3.1 商用工具

1.3.2 开源工具

1.4 数据挖掘应用场景

习题

参考文献

第2章 数据预处理与相似性

2.1 数据类型

2.1.1 属性与度量

2.1.2 数据集的类型

2.2 数据预处理

2.2.1 数据清理

2.2.2 数据集成

2.2.3 数据规范化

2.2.4 数据约简

2.2.5 数据离散化

2.3 数据的相似性

2.3.1 数值属性的相似性度量

2.3.2 标称属性的相似性度量

2.3.3 组合异种属性的相似性度量

2.3.4 文档相似性度量

2.3.5 离散序列相似性度量

习题

参考文献

第3章 分类

3.1 分类的基本概念、分类过程及分类器性能的评估

3.1.1 分类的基本概念

3.1.2 分类的过程

3.1.3 分类器性能的评估方法

3.2 决策树

3.2.1 决策树概述

3.2.2 决策树的用途和特性

3.2.3 决策树工作原理

3.2.4 决策树构建步骤

3.2.5 决策树算法原理

3.3 贝叶斯分类

3.3.1 贝叶斯定理

3.3.2 朴素贝叶斯分类原理与流程

3.3.3 贝叶斯分析

3.3.4 贝叶斯决策

3.4 支持向量机

3.4.1 支持向量机主要思想

3.4.2 支持向量机基础理论

3.4.3 支持向量机原理

3.5 实战:决策树算法在Weka中的实现

3.5.1 Weka探索者图形用户界面

3.5.2 决策树算法在Weka中的具体实现

3.5.3 使用中的具体实例

习题

参考文献

第4章 回归

4.1 回归概述

4.1.1 回归分析的定义

4.1.2 回归分析步骤

4.1.3 回归分析要注意的问题

4.2 一元回归分析

4.2.1 一元回归分析的模型设定

4.2.2 一元线性回归模型的参数估计

4.2.3 基本假设下OLS估计的统计性质

4.2.4 误差方差估计

4.2.5 回归系数检验(t检验)

4.2.6 拟合优度和模型检验(F检验)

4.3 多元线性回归分析

4.3.1 多元线性回归模型

4.3.2 多元线性回归模型的假定

4.3.3 多元线性回归模型的参数估计

4.3.4 显著性检验

4.3.5 回归变量的选择与逐步回归

4.4 逻辑回归分析

4.4.1 逻辑回归模型

4.4.2 logit变换

4.4.3 Logistic分布

4.4.4 列联表的Logistic回归模型

4.5 其他回归分析

4.5.1 多项式回归(Polynomial Regression)

4.5.2 逐步回归(Stepwise Regression)

4.5.3 岭回归(Ridge Regression)

4.5.4 套索回归(Lasso Regression)

4.5.5 弹性网络(ElasticNet)

4.6 实战:用回归分析方法给自己的房子定价

4.6.1 为Weka构建数据集

4.6.2 将数据载入Weka

4.6.3 用Weka创建一个回归模型

4.6.4 结果分析

习题

参考文献

第5章 聚类

5.1 聚类概述

5.2 划分方法

5.2.1 k均值算法

5.2.2 k中心点算法

5.3 层次方法

5.3.1 层次方法的分类

5.3.2 BIRCH算法

5.4 基于密度的方法

5.5 实战:聚类分析

5.5.1 背景与聚类目的

5.5.2 聚类过程

5.5.3 聚类结果分析

习题

参考文献

第6章 关联规则

6.1 概述

6.1.1 购物篮分析:啤酒与尿布的经典案例

6.1.2 关联规则的概念

6.1.3 频繁项集的产生

6.2 Apriori算法:通过限制候选项集产生发现频繁项集

6.2.1 Apriori算法的频繁项集产生

6.2.2 Apriori算法描述

6.3 FP-growth算法

6.3.1 构造FP树

6.3.2 挖掘FP树

6.3.3 FP-Tree算法

6.4 其他关联规则算法

6.4.1 约束性关联规则算法

6.4.2 增量式关联规则算法

6.4.3 多层关联规则算法

6.5 实战:个人信用关联规则挖掘

6.5.1 背景与挖掘目标

6.5.2 分析方法与过程

6.5.3 总结

习题

参考文献

第7章 常用大数据挖掘算法优化改进

7.1 分类算法

7.1.1 分类算法的并行化

7.1.2 并行化的决策树算法优化

7.1.3 一种新的朴素贝叶斯改进方法

7.1.4 支持向量机并行优化改进

7.2 聚类算法

7.2.1 聚类分析研究的主要内容及算法应用

7.2.2 并行聚类相关技术及算法体系结构和模型

7.2.3 k-means聚类算法的一种改进方法

7.2.4 基于Spark的k-means算法并行化设计与实现

7.2.5 基于Spark的k-means改进算法的并行化

7.2.6 基于MapReduce的聚类算法并行化

7.2.7 谱聚类算法并行化方法

7.3 关联规则

7.3.1 Apriori算法的一种改进方法

7.3.2 Apriori算法基于Spark的分布式实现

7.3.3 并行FP-growth关联规则算法研究

7.3.4 基于Spark的FP-growth算法的并行化实现

习题

参考文献

第8章 推荐系统

8.1 推荐系统概述

8.1.1 基本概念

8.1.2 发展历史

8.1.3 推荐系统评测指标

8.2 基于内容的推荐

8.2.1 物品表示

8.2.2 物品相似度

8.2.3 用户对物品的评分

8.2.4 基于向量空间模型的推荐

8.3 协同过滤

8.3.1 协同过滤基本概念

8.3.2 基于用户的协同过滤

8.3.3 基于物品的协同过滤

8.3.4 隐语义模型和矩阵因子分解模型

8.4 其他推荐技术

8.5 实战:基于协同过滤算法推荐电影

8.5.1 数据准备与导入

8.5.2 建立矩阵因子分解模型

8.5.3 推荐预测及验证

习题

参考文献

第9章 互联网数据挖掘

9.1 链接分析与网页排序

9.1.1 PageRank

9.1.2 PageRank的快速计算

9.1.3 面向主题的PageRank

9.1.4 时间序列分析

9.2 互联网信息抽取

9.2.1 概述

9.2.2 典型应用模型构建

9.2.3 挖掘、存储与网络技术分析

9.2.4 数据采集管理

9.2.5 信息抽取方法与知识发现

9.2.6 行业案例研究

9.3 日志挖掘与查询分析

9.3.1 概述

9.3.2 挖掘分析常用方法与工具比较

9.3.3 海量数据挖掘过程展现与分析

9.3.4 行业应用举例

习题

参考文献

附录A 数据挖掘工具Weka

A.1 Weka简介

A.1.1 概述

A.1.2 Weka数据格式

A.2 Explorer界面

A.2.1 数据准备

A.2.2 数据载入

A.2.3 训练与模型评估

A.2.4 属性选择或过滤

A.2.5 可视化

A.3 Knowledge Flow界面

A.3.1 界面组件分析

A.3.2 组件的配置与连接

A.3.3 知识流界面实例

A.4 Experimenter界面

A.4.1 实验者界面实例

A.4.2 简单设置

A.4.3 高级设置

A.4.4 实验结果分析

习题

参考文献

附录B Spark 机器学习库MLlib

B.1 Spark简介

B.1.1 Spark生态系统

B.1.2 Spark集群架构

B.1.3 Spark作业调度

B.2 Spark RDD

B.2.1 RDD设计思想

B.2.2 RDD编程接口

B.2.3 RDD操作

B.3 Spark MLlib简介

B.4 Spark MLlib数据类型

B.4.1 本地向量

B.4.2 标注点

B.4.3 本地矩阵

B.5 Spark MLlib算法库

B.5.1 机器学习管道

B.5.2 特征提取与转换

B.5.3 分类与回归

B.5.4 聚类

B.5.5 协同过滤

B.5.6 模型选择与调优

习题

参考文献

附录C 大数据和人工智能实验环境

数据挖掘是2018年由电子工业出版社出版,作者王朝霞 主编。

得书感谢您对《数据挖掘》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
PowerBI数据挖掘与可视化分析 电子书
“人人都是数据分析师”系列,深入浅出讲解Power BI应用和秘诀,让你的数据“狂飙”。
掘金大数据:电信数据金矿详解、挖掘及应用 电子书
本书带你了解电信运营商数据的全貌,详解资源特征、分析体系,涵盖交通金融旅游广告气象餐饮娱乐政务等案例。
数据素养 电子书
全面解析数据素养,助你成为数据管理高手。
大数据营销 电子书
本书分为4篇13章。其中,第1章到第4章属于基础篇,主要介绍大数据概述、大数据营销概述、大数据时代的消费者行为分析、大数据广告营销等内容。第5章、第6章属于工具篇,主要介绍精准营销、大数据搜索营销等内容。第7章到第11章属于智能应用篇,主要介绍当前热门的大数据营销应用领域,包括App营销、微信营销、微博营销、O2O营销、短视频与直播营销等内容。第12章、第13章属于拓展篇,主要介绍跨界营销、其他大
数据治理与数据安全 电子书
一本书讲清数据,推进数据开放共享与跨境流动战略,助力个人信息保护。