R数据挖掘实战

R数据挖掘实战

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书借助实际用例和现实数据集来实施数据挖掘。

内容简介

本书通过循序渐进的介绍,让读者借助基础以及先进的数据挖掘技术,帮助一个虚拟的商业公司解决对其造成负面影响的真实欺诈案例。通过全程参与这一极不寻常的数据挖掘案例,读者将会掌握数据挖掘方面的强大技能。

作者简介

作者安德烈亚·奇里洛(Andrea Cirillo),目前就职于意大利联合圣保罗银行,担任审计量化分析师。

章节目录

版权信息

内容提要

作者简介

审稿人简介

前言

第1章 为何选择R语言

1.1 什么是R语言

1.2 R语言的发展历史

1.3 R语言的优势

1.3.1 开源

1.3.2 插件就绪

1.3.3 数据可视化友好

1.4 安装R语言和编写R语言代码

1.4.1 下载R语言程序包

1.4.2 应用于Windows平台和macOS平台的R语言程序包

1.4.3 应用于Linux平台的R语言程序包

1.4.4 R语言基础版本安装的主要组件

1.4.5 编写及运行R语言代码的替代工具平台

1.5 R语言的基本概念

1.5.1 R语言入门

1.5.2 向量

1.5.3 列表

1.5.4 数据帧

1.5.5 函数

1.6 R语言的劣势以及如何克服这些劣势

1.6.1 高效学习R语言,最小化精力投入

1.6.2 使用R语言操作大型数据集

1.7 更多参考

1.8 小结

第2章 数据挖掘入门

2.1 获取并组织银行数据

数据模型

2.2 使用数据透视表汇总数据

2.2.1 管道运算符简介

2.2.2 dplyr程序包简介

2.2.3 安装必要的程序包并将个人数据加载到R语言环境中

2.2.4 确定每月和每天的费用总额

2.3 使用ggplot2程序包对数据进行可视化

2.3.1 数据可视化基本原则

2.3.2 使用ggplot进行数据可视化

2.4 更多参考

2.5 小结

第3章 数据挖掘进阶

3.1 CRISP-DM方法论之数据挖掘周期

3.2 业务理解

3.3 数据理解

3.3.1 数据收集

3.3.2 数据描述

3.3.3 数据探索

3.4 数据准备

3.5 建模

定义数据建模策略

3.6 评估

3.6.1 聚类评估

3.6.2 分类评估

3.6.3 回归评估

3.6.4 如何判断模型性能的充分性

3.7 部署

3.7.1 部署计划开发

3.7.2 维护计划开发

3.8 小结

第4章 保持室内整洁

4.1 概述

4.2 数据源

数据源类型

4.3 数据仓库和数据库

4.3.1 中间层——数据集市

4.3.2 单层架构的数据仓库

4.3.3 双层架构的数据仓库

4.3.4 三层架构的数据仓库

4.3.5 实际应用的技术

4.4 数据挖掘引擎

4.4.1 解释器

4.4.2 引擎和数据仓库之间的接口

4.4.3 数据挖掘算法

4.5 用户界面

清晰性原则

效率原则

一致性原则

4.6 如何使用R语言创建数据挖掘架构

4.6.1 数据源

4.6.2 数据仓库

4.6.3 数据挖掘引擎

4.6.4 用户界面

4.7 更多参考

4.8 小结

第5章 如何解决数据挖掘问题

5.1 安静祥和的一天

5.2 数据清洗

5.2.1 tidy data框架

5.2.2 分析数据的结构

5.2.3 数据整理

5.2.4 验证数据

5.2.5 数据合并

5.3 更多参考

5.4 小结

第6章 观察数据

6.1 汇总EDA介绍

6.1.1 描述总体分布

6.1.2 测定变量之间的相关性

6.2 图形化EDA

6.2.1 变量分布可视化

6.2.2 变量关系可视化

6.3 更多参考

6.4 小结

第7章 最初的猜想

7.1 定义数据建模策略

数据建模相关概念

7.2 应用线性回归

7.2.1 线性回归的直观解释

7.2.2 线性回归的数学原理

7.2.3 如何在R语言中使用线性回归

7.3 更多参考

7.4 小结

第8章 浅谈模型性能评估

8.1 定义模型性能

8.1.1 模型的拟合度与可解释性

8.1.2 使用模型进行预测

8.2 衡量回归模型的性能

8.2.1 均方误差

8.2.2 R平方

8.3 衡量分类问题模型的性能

8.3.1 混淆矩阵

8.3.2 准确度

8.3.3 灵敏度

8.3.4 特异性

8.3.5 如何选择合适的性能统计指标

8.4 区分训练数据集与测试数据集

8.5 更多参考

8.6 小结

第9章 不要放弃—继续学习 包括多元变量的回归

9.1 从简单线性回归到多元线性回归

9.1.1 符号

9.1.2 假设

9.2 降维

9.2.1 逐步回归

9.2.2 主成分回归

9.3 使用R语言拟合多元线性模型

9.3.1 模型拟合

9.3.2 变量的假设验证

9.3.3 残差假设验证

9.3.4 降维

9.4 更多参考

9.5 小结

第10章 关于分类模型问题的不同展望

10.1 为什么需要分类模型

10.1.1 线性回归应用于分类变量的局限性

10.1.2 常用的分类算法和模型

10.2 逻辑回归

10.2.1 逻辑回归的原理

10.2.2 逻辑回归的数学原理

10.2.3 如何在R中应用逻辑回归

10.2.4 逻辑回归结果的可视化与解释

10.3 支持向量机

10.3.1 支持向量机的原理

10.3.2 在R语言中应用支持向量机

10.3.3 理解支持向量机的结果

10.4 更多参考

10.5 小结

第11章 最后冲刺

11.1 随机森林

11.1.1 随机森林的构建模块——决策树简介

11.1.2 随机森林的原理

11.1.3 在R语言中应用随机森林

11.1.4 评估模型的结果

11.2 集成学习

11.2.1 基础的集成学习技术

11.2.2 采用R语言对数据进行集成学习

11.3 在新数据上应用估计模型

11.3.1 将predict.glm()函数用于逻辑模型的预测

11.3.2 将predict.randomForest()函数用于随机森林的预测

11.3.3 将predict.svm()函数用于支持向量机的预测

11.4 结构化更加良好的预测分析方法

11.5 对预测数据应用集成学习中的多数投票技术

11.6 更多参考

11.7 小结

第12章 寻找罪魁祸首

12.1 提取PDF文件中的数据

12.1.1 获取文档列表

12.1.2 通过pdf_text()函数将PDF文件读取到R语言环境

12.1.3 使用for循环迭代提取文本

12.2 文本情感分析

12.3 开发词云

12.4 N元模型分析

12.5 网络分析

12.5.1 从数据帧中获取边列表

12.5.2 使用ggraph程序包可视化网络

12.6 更多参考

12.7 小结

第13章 借助R Markdown分享公司现状

13.1 富有说服力的数据挖掘报告的原则

13.1.1 清晰阐明目标

13.1.2 明确陈述假设

13.1.3 数据处理过程清晰明了

13.1.4 检查数据一致性

13.1.5 提供数据谱系

13.2 编制R Markdown报告

13.3 在RStudio中编制R Markdown报告文档

13.3.1 Markdown 简介

13.3.2 插入代码块

13.3.3 通过内联R语言代码在文本中重现代码的输出

13.3.4 Shiny简介以及响应式框架

13.3.5 添加交互式数据谱系模块

13.4 渲染和分享R Markdown报告

13.4.1 渲染R Markdown报告

13.4.2 分享R Markdown报告

13.5 更多参考

13.6 小结

第14章 结语

附录 日期、相对路径和函数处理

彩图

R数据挖掘实战是2024年由人民邮电出版社出版,作者[意] 安德烈亚·奇里洛。

得书感谢您对《R数据挖掘实战》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
R语言高效能实战:更多数据和更快速度 电子书
本书将目标设定为“在一台笔记本电脑上能够运行”,从单机大型数据集处理策略、提升计算性能、其他工具和技巧3个方面介绍了使用R语言处理数据时的实用方法。主要内容包括数据集占用空间、善用data.table处理数据、数据分块处理、提升硬盘资源使用效率、并行编程技术、提升机器学习性能,以及其他资源管理和提高性能的实用策略。
IBM SPSS Modeler 18.0数据挖掘权威指南 电子书
联袂推荐 暨南大学教授、博士生导师刘建平,暨南大学研究生院副院长、经济学院统计学系副主任、教授、博士生导师陈光慧,天善智能创始人梁勇,IBM技术专家刘咏梅,IBM数据科学家钟云飞,广东省环保厅环境咨询专家委员会专家、广东柯内特环境科技有限公司总经理朱斌 本书特色 内容全面:涉及数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署、性能优化、数据挖掘方法论等诸多内容; 讲解透彻:既有理论的讲解,又涵盖应用的实践,而且在工具的介绍上,尽可能包括每一个选项的内容和应用形式,力求让读者“吃透”每一章节的内容; 突出实战:集行业经验、项目实践、算法剖析、应用技巧于一身,配套提供数据文件以及数据模型文件,方便读者动手实践。
PowerBI数据挖掘与可视化分析 电子书
“人人都是数据分析师”系列,深入浅出讲解Power BI应用和秘诀,让你的数据“狂飙”。
掘金大数据:电信数据金矿详解、挖掘及应用 电子书
本书带你了解电信运营商数据的全貌,详解资源特征、分析体系,涵盖交通金融旅游广告气象餐饮娱乐政务等案例。
HADOOP大数据开发实战 电子书
Hadoop基础教程,大数据技术原理与应用教程,MapReduce框架入门实战指南。