数据挖掘(第2版)

数据挖掘(第2版)

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

普通高等学校数据科学与大数据技术专业精品教材。

内容简介

本书系统地介绍了数据挖掘理论、方法与应用,包括数据特征分析与预处理,经典数据挖掘算法(分类、回归、聚类、关联规则和集成学习等),大数据新常态下催生的数据分析方法(推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析等)等理论与方法。在此基础上,每章均有基于Python语言的实例应用。

本书可以作为高等院校数据科学与大数据技术专业相关课程的教材,以及计算机、软件工程等专业的教材或参考书。高职高专学校相关专业也可选用部分内容开展教学。

作者简介

编者王朝霞,教授,清华大学博士毕业,现任中国信息协会大数据分会副会长、南京大数据研究院院长、中国大数据应用联盟人工智能专家委员会主任、中国大数据专家委员会委员。

章节目录

版权信息

内容简介

编委会

总序

第2版前言

第1版前言

第1章 绪论

1.1 数据挖掘的基本概念

1.1.1 数据挖掘的概念

1.1.2 大数据环境下的数据挖掘

1.1.3 数据挖掘的特性

1.1.4 数据挖掘的任务和功能

1.1.5 数据挖掘的对象

1.1.6 数据挖掘的过程

1.2 数据挖掘的起源及发展

1.3 数据挖掘的常用工具

1.3.1 商用工具

1.3.2 开源工具

1.4 数据挖掘的应用

习题

参考文献

第2章 数据特征分析及预处理

2.1 数据类型

2.1.1 属性与度量

2.1.2 数据集的类型

2.2 数据特征分析

2.2.1 描述数据集中趋势的度量

2.2.2 描述数据离散程度的度量

2.2.3 数据相关性分析

2.3 数据预处理

2.3.1 数据清洗

2.3.2 数据集成

2.3.3 数据规范化

2.3.4 数据规约

2.3.5 数据离散化

2.4 数据的相似性

2.4.1 数值属性的相似性度量

2.4.2 标称属性的相似性度量

2.4.3 组合异种属性的相似性度量

2.4.4 文本的相似性度量

2.4.5 离散序列的相似性度量

习题

参考文献

第3章 分类

3.1 分类概述

3.1.1 分类的基本概念

3.1.2 分类的过程

3.1.3 分类器性能的评估方法

3.2 决策树

3.2.1 决策树的基本概念

3.2.2 决策树的用途和特性

3.2.3 决策树的工作原理

3.2.4 决策树的构建步骤

3.2.5 决策树算法原理

3.3 贝叶斯分类

3.3.1 贝叶斯定理

3.3.2 朴素贝叶斯分类

3.3.3 贝叶斯分析

3.3.4 贝叶斯决策

3.3.5 贝叶斯估计

3.4 支持向量机

3.4.1 支持向量机的主要思想

3.4.2 支持向量机的基础理论

3.4.3 支持向量机的原理

3.5 实战:Python支持向量机分类

习题

参考文献

第4章 回归

4.1 回归的基本概念

4.1.1 回归分析的定义

4.1.2 回归分析的步骤

4.1.3 回归分析要注意的问题

4.2 一元回归分析

4.2.1 一元回归分析的模型设定

4.2.2 回归参数的最小二乘估计

4.2.3 基本假设下OLS估计的统计性质

4.2.4 误差方差估计

4.2.5 回归系数检验(t检验)

4.2.6 拟合优度和模型检验(F检验)

4.3 多元线性回归分析

4.3.1 多元线性回归模型

4.3.2 多元线性回归模型的假定

4.3.3 多元线性回归模型的参数估计

4.3.4 显著性检验

4.3.5 回归变量的选择与逐步回归

4.4 逻辑回归分析

4.4.1 逻辑回归模型

4.4.2 logit变换

4.4.3 估计回归系数

4.4.4 Logistic分布

4.4.5 列联表的Logistic回归模型

4.5 其他回归分析

4.5.1 多项式回归

4.5.2 逐步回归

4.5.3 岭回归

4.5.4 套索回归

4.5.5 弹性网络

4.6 实战:获得最大有效率时的药物用量

习题

参考文献

第5章 聚类

5.1 聚类基本概念

5.2 划分聚类方法

5.2.1 k-平均算法

5.2.2 k-中心点算法

5.3 层次聚类方法

5.3.1 层次聚类方法的分类

5.3.2 BIRCH算法

5.4 密度聚类方法

5.5 实战:Python聚类分析

5.5.1 Python实现k-平均划分聚类

5.5.2 Python实现BIRCH层次聚类

5.5.3 Python实现DBSCAN密度聚类

习题

参考文献

第6章 关联规则

6.1 基本概念

6.1.1 啤酒与尿布的经典案例

6.1.2 关联规则的概念

6.1.3 频繁项集的产生

6.2 Apriori算法:通过限制候选产生发现频繁项集

6.2.1 Apriori算法的频繁项集产生

6.2.2 Apriori算法描述

6.3 FP-growth算法

6.3.1 构造FP树

6.3.2 挖掘FP树

6.3.3 FP-growth算法

6.4 其他关联规则算法

6.4.1 约束性关联规则

6.4.2 增量式关联规则

6.4.3 多层关联规则

6.5 实战:购物篮关联规则挖掘

6.5.1 背景与挖掘目标

6.5.2 分析方法与过程

6.5.3 总结

习题

参考文献

第7章 集成学习

7.1 集成学习的概念

7.1.1 集成学习的构建

7.1.2 集成学习的优势

7.2 Bagging算法与随机森林算法

7.2.1 Bagging算法基本思想

7.2.2 Bagging算法流程

7.2.3 随机森林算法

7.3 Boosting算法

7.3.1 Boosting算法流程

7.3.2 Boosting系列算法

7.4 结合策略

7.4.1 投票方法

7.4.2 叠加方法

7.5 多样性

7.5.1 多样性的概念

7.5.2 多样性的作用

7.5.3 多样性的度量

7.5.4 多样性的构建

7.6 实战案例

7.6.1 鸢尾花数据集

7.6.2 集成学习算法

7.6.3 集成学习在鸢尾花数据集上的应用

7.7 本章小结

习题

参考文献

第8章 推荐系统

8.1 推荐系统概述

8.1.1 什么是推荐系统

8.1.2 推荐系统评测指标

8.1.3 推荐系统中的冷启动

8.2 基于内容的推荐

8.2.1 物品表示

8.2.2 物品相似度

8.2.3 用户对物品的评分

8.2.4 基于向量空间模型的推荐

8.3 协同过滤推荐

8.3.1 协同过滤的基本概念

8.3.2 基于用户的协同过滤

8.3.3 基于物品的协同过滤

8.3.4 隐语义模型和矩阵因子分解模型

8.4 基于标签的推荐

8.4.1 数据标注与关键词提取

8.4.2 标签分类

8.4.3 基于标签的推荐系统原理

8.5 实战:搭建一个电影推荐系统

8.5.1 数据准备与导入

8.5.2 电影热度值计算

8.5.3 电影相似度计算

8.5.4 指定标签下的电影统计

习题

参考文献

第9章 互联网数据挖掘

9.1 链接分析与网页排序

9.1.1 PageRank

9.1.2 PageRank的快速计算

9.1.3 面向主题的PageRank

9.1.4 时间序列分析

9.1.5 排序背后的机理探讨

9.1.6 重新思考时间序列

9.2 互联网信息抽取

9.2.1 互联网信息深度挖掘概述

9.2.2 典型应用模型构建

9.2.3 挖掘、存储与网络技术分析

9.2.4 数据信息采集管理

9.2.5 信息抽取方法与知识发现

9.2.6 智能决策

9.2.7 行业案例研究

9.3 日志挖掘与查询分析

9.3.1 互联网日志分析概述

9.3.2 挖掘分析技术方法

9.3.3 工具比较

9.3.4 海量数据挖掘过程展现与分析

9.3.5 行业应用举例

9.4 Python实战案例

9.4.1 PageRank Python实现

9.4.2 跨境电商运营潜在市场选择

9.4.3 天池“双11”日志数据挖掘示例

习题

参考文献

附录A 大数据和人工智能实验环境

数据挖掘(第2版)是2023年由电子工业出版社出版,作者王朝霞 主编。

得书感谢您对《数据挖掘(第2版)》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
大数据分析与挖掘 电子书
数据科学与大数据技术专业系列规划教材。强调概念+算法实践,让你“小数据”上会“算”,“大数据”上“算得快”。
Python数据处理与挖掘 电子书
本书以构建完整的知识体系为目标,按照从简单到复杂的思路,贯穿了数据处理与挖掘的各个环节,具体包括:Python快速入门、Python数据类型、Python常用模块、Python数据获取、Python数据挖掘基础、Python数据挖掘算法、Python大数据挖掘和Python数据可视化。此外,针对各知识点,全书均设计了相应的Python案例,并给出了实现代码、效果图以及相应的解释,以强化读者对各知识
Python数据分析与挖掘 电子书
本书面向大数据应用型人才,以任务为导向,系统地介绍Python数据分析与挖掘的常用技术与真实案例。全书共7章,第1、2章介绍Python数据分析的常用模块及其应用,涵盖NumPy数值计算模块、pandas数据分析模块,较为系统地阐述Python数据分析的方法;第3、4章介绍轻量级的数据交换格式JSON和连接MySQL数据库的pymysql模块,并以此进行数据综合案例的分析;第5章介绍Matplot
文本数据挖掘——基于R语言 电子书
文本是一种特殊的非结构化数据,在当今的大数据时代,其价值日趋凸显。本书利用开源而强大的R软件,对文本数据挖掘的概念、技术及技巧进行了系统的介绍。本书共11章,内容包括:走进文本数据挖掘,R语言快速入门,字符串的基本处理,用好正则表达式,导入各类文本数据,对各类文本数据进行预处理,文本特征提取的4种方法,基于机器学习的文本分类方法,文本情感分析,文本可视化,文本数据挖掘项目实践。本书还提供了丰富的应
Python数据分析与挖掘实战 电子书
本书共11章,分为基础篇(第1-5章)和实战篇(第6-11章),基础篇包括数据挖掘基础、Python数据挖掘编程基础、数据探索、数据预处理、数据挖掘算法基础等基础知识:实战篇包括6个案例,分别为信用卡高风险客户识别、餐饮企业菜品关联分析、金融服务机构资金流量预测、O2O优惠券使用预测、电视产品个性化推荐,以及基于TipDM大数据挖掘建模平台实现金融服务机构资金流量预测。本书大部分章节包含实训和课后