大规模数据分析和建模:基于Spark与R

大规模数据分析和建模:基于Spark与R

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

Spark发明者撰写,详细讲解展示如何将Spark和R结合起来进行大数据分析。

内容简介

如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。

本书第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。

作者简介

作者Javier Luraschi是大规模数据科学诸多库的发明者,包括sparklyr、r2d3、pins和cloudml。

章节目录

版权信息

O'Reilly Media, Inc.介绍

业界评论

译者序

序言

前言

第1章 引言

1.1 概述

1.2 Hadoop

1.3 Spark

1.4 R

1.5 sparklyr

1.6 小结

第2章 开始

2.1 概述

2.2 预备操作

2.2.1 安装sparklyr

2.2.2 安装Spark

2.3 连接

2.4 使用Spark

2.4.1 网络接口

2.4.2 分析

2.4.3 建模

2.4.4 数据

2.4.5 扩展

2.4.6 分布式R

2.4.7 流式数据

2.4.8 日志

2.5 断开连接

2.6 使用RStudio

2.7 资源

2.8 小结

第3章 分析

3.1 概述

3.2 数据导入

3.3 数据整理

3.3.1 内置函数

3.3.2 相关性

3.4 可视化

3.4.1 使用ggplot2

3.4.2 使用dbplot

3.5 建模

3.6 沟通

3.7 小结

第4章 建模

4.1 概述

4.2 探索性数据分析

4.3 特征工程

4.4 监督式学习

4.4.1 广义线性回归

4.4.2 其他模型

4.5 非监督式学习

4.5.1 数据准备

4.5.2 主题建模

4.6 小结

第5章 管道操作

5.1 概述

5.2 创建工作

5.3 用例

5.4 操作模式

5.5 交互性

5.6 部署

5.6.1 批打分

5.6.2 实时打分

5.7 小结

第6章 集群

6.1 概述

6.2 本地化

6.2.1 管理器

6.2.2 发行版

6.3 云端

6.3.1 亚马逊

6.3.2 Databricks

6.3.3 谷歌

6.3.4 IBM

6.3.5 微软

6.3.6 Qubole

6.4 Kubernetes

6.5 工具

6.5.1 RStudio

6.5.2 Jupyter

6.5.3 Livy

6.6 小结

第7章 连接

7.1 概述

7.1.1 边缘节点

7.1.2 Spark主目录

7.2 本地模式

7.3 单机模式

7.4 YARN

7.4.1 YARN客户端

7.4.2 YARN集群

7.5 Livy

7.6 Mesos

7.7 Kubernetes

7.8 云模式

7.9 批量模式

7.10 工具

7.11 多次连接

7.12 故障排除

7.12.1 记录日志

7.12.2 Spark Submit

7.12.3 Windows

7.13 小结

第8章 数据

8.1 概述

8.2 读取数据

8.2.1 路径

8.2.2 模式

8.2.3 内存

8.2.4 列

8.3 写入数据

8.4 复制数据

8.5 文件格式

8.5.1 CSV

8.5.2 JSON

8.5.3 Parquet

8.5.4 其他

8.6 文件系统

8.7 存储系统

8.7.1 Hive

8.7.2 Cassandra

8.7.3 JDBC

8.8 小结

第9章 调试

9.1 概述

9.1.1 计算图

9.1.2 时间线

9.2 配置

9.2.1 连接设置

9.2.2 提交设置

9.2.3 运行时设置

9.2.4 sparklyr设置

9.3 分区

9.3.1 隐式分区

9.3.2 显式分区

9.4 缓存

9.4.1 检查点

9.4.2 内存

9.5 重洗

9.6 序列化

9.7 配置文件

9.8 小结

第10章 扩展

10.1 概述

10.2 H2O

10.3 图模型

10.4 XGBoost

10.5 深度学习

10.6 基因组学

10.7 空间数据

10.8 故障排除

10.9 小结

第11章 分布式R

11.1 概述

11.2 用例

11.2.1 定制解析器

11.2.2 分区建模

11.2.3 网格搜索

11.2.4 Web API

11.2.5 模拟

11.3 分区

11.4 分组

11.5 列

11.6 context参数

11.7 函数

11.8 程序包

11.9 集群需求

11.9.1 安装R

11.9.2 Apache Arrow

11.10 故障排除

11.10.1 工作节点日志

11.10.2 解决超时

11.10.3 检查分区

11.10.4 调试工作节点

11.11 小结

第12章 数据流

12.1 概述

12.2 转换

12.2.1 分析

12.2.2 建模

12.2.3 管道

12.2.4 分布式R

12.3 Kafka

12.4 Shiny

12.5 小结

第13章 社区贡献

13.1 概述

13.2 Spark API

13.3 Spark扩展

13.4 使用Scala代码

13.5 小结

附录A 补充参考代码

作者介绍

封面介绍

大规模数据分析和建模:基于Spark与R是2020年由机械工业出版社华章分社出版,作者[美] Javier Luraschi。

得书感谢您对《大规模数据分析和建模:基于Spark与R》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
R语言编程:基于tidyverse 电子书
一本基于tidyverse入门R语言编程的书。
Excel金融建模:预测、估值、交易和增长分析 电子书
本书基于Excel 2019编写,将Excel用于金融建模实践,讲解金融从业者需要具备的核心技能。
Spark海量数据处理:技术详解与平台实战 电子书
在数字经济时代,数据是重要的资源要素;同时,新的数据又在源源不断地产生,企业面临的一个基本问题就是如何管理和利用这些数据,这对传统的数据处理方法与分析框架提出了新的诉求和挑战,也是全球业界与学界为关心的问题。为了满足大数据时代对信息的快速处理的需求,一个分布式的开源计算框架Apache Spark应运而生。经过十年的发展,Spark已经成为目前大数据处理的标杆,在整个业界得到了广泛的使用。对大数据工程师来说,用Spark构建数据管道无疑是很好的选择,而对数据科学家来说,Spark也是高效的数据探索工具。 本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,技术理论与实战相结合,层次分明,循序渐进。本书不仅介绍了如何开发Spark应用的基础内容,包括Spark架构、Spark编程、SparkSQL、Spark调优等,还探讨了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习、Alluxio系统等高级主题,同时完整实现了一个企业背景调查系统,借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足业务需求。学习该系统可以使读者从实战中巩固所学,并将技术理论与应用实战融会贯通。 本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。
Serverless核心技术和大规模实践 电子书
本书着眼于Serverless方向,重点介绍FaaS的架构和实现原理。
R语言高效能实战:更多数据和更快速度 电子书
本书将目标设定为“在一台笔记本电脑上能够运行”,从单机大型数据集处理策略、提升计算性能、其他工具和技巧3个方面介绍了使用R语言处理数据时的实用方法。主要内容包括数据集占用空间、善用data.table处理数据、数据分块处理、提升硬盘资源使用效率、并行编程技术、提升机器学习性能,以及其他资源管理和提高性能的实用策略。