类似推荐
编辑推荐
Spark发明者撰写,详细讲解展示如何将Spark和R结合起来进行大数据分析。
内容简介
如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。
本书第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。
作者简介
作者Javier Luraschi是大规模数据科学诸多库的发明者,包括sparklyr、r2d3、pins和cloudml。
章节目录
版权信息
O'Reilly Media, Inc.介绍
业界评论
译者序
序言
前言
第1章 引言
1.1 概述
1.2 Hadoop
1.3 Spark
1.4 R
1.5 sparklyr
1.6 小结
第2章 开始
2.1 概述
2.2 预备操作
2.2.1 安装sparklyr
2.2.2 安装Spark
2.3 连接
2.4 使用Spark
2.4.1 网络接口
2.4.2 分析
2.4.3 建模
2.4.4 数据
2.4.5 扩展
2.4.6 分布式R
2.4.7 流式数据
2.4.8 日志
2.5 断开连接
2.6 使用RStudio
2.7 资源
2.8 小结
第3章 分析
3.1 概述
3.2 数据导入
3.3 数据整理
3.3.1 内置函数
3.3.2 相关性
3.4 可视化
3.4.1 使用ggplot2
3.4.2 使用dbplot
3.5 建模
3.6 沟通
3.7 小结
第4章 建模
4.1 概述
4.2 探索性数据分析
4.3 特征工程
4.4 监督式学习
4.4.1 广义线性回归
4.4.2 其他模型
4.5 非监督式学习
4.5.1 数据准备
4.5.2 主题建模
4.6 小结
第5章 管道操作
5.1 概述
5.2 创建工作
5.3 用例
5.4 操作模式
5.5 交互性
5.6 部署
5.6.1 批打分
5.6.2 实时打分
5.7 小结
第6章 集群
6.1 概述
6.2 本地化
6.2.1 管理器
6.2.2 发行版
6.3 云端
6.3.1 亚马逊
6.3.2 Databricks
6.3.3 谷歌
6.3.4 IBM
6.3.5 微软
6.3.6 Qubole
6.4 Kubernetes
6.5 工具
6.5.1 RStudio
6.5.2 Jupyter
6.5.3 Livy
6.6 小结
第7章 连接
7.1 概述
7.1.1 边缘节点
7.1.2 Spark主目录
7.2 本地模式
7.3 单机模式
7.4 YARN
7.4.1 YARN客户端
7.4.2 YARN集群
7.5 Livy
7.6 Mesos
7.7 Kubernetes
7.8 云模式
7.9 批量模式
7.10 工具
7.11 多次连接
7.12 故障排除
7.12.1 记录日志
7.12.2 Spark Submit
7.12.3 Windows
7.13 小结
第8章 数据
8.1 概述
8.2 读取数据
8.2.1 路径
8.2.2 模式
8.2.3 内存
8.2.4 列
8.3 写入数据
8.4 复制数据
8.5 文件格式
8.5.1 CSV
8.5.2 JSON
8.5.3 Parquet
8.5.4 其他
8.6 文件系统
8.7 存储系统
8.7.1 Hive
8.7.2 Cassandra
8.7.3 JDBC
8.8 小结
第9章 调试
9.1 概述
9.1.1 计算图
9.1.2 时间线
9.2 配置
9.2.1 连接设置
9.2.2 提交设置
9.2.3 运行时设置
9.2.4 sparklyr设置
9.3 分区
9.3.1 隐式分区
9.3.2 显式分区
9.4 缓存
9.4.1 检查点
9.4.2 内存
9.5 重洗
9.6 序列化
9.7 配置文件
9.8 小结
第10章 扩展
10.1 概述
10.2 H2O
10.3 图模型
10.4 XGBoost
10.5 深度学习
10.6 基因组学
10.7 空间数据
10.8 故障排除
10.9 小结
第11章 分布式R
11.1 概述
11.2 用例
11.2.1 定制解析器
11.2.2 分区建模
11.2.3 网格搜索
11.2.4 Web API
11.2.5 模拟
11.3 分区
11.4 分组
11.5 列
11.6 context参数
11.7 函数
11.8 程序包
11.9 集群需求
11.9.1 安装R
11.9.2 Apache Arrow
11.10 故障排除
11.10.1 工作节点日志
11.10.2 解决超时
11.10.3 检查分区
11.10.4 调试工作节点
11.11 小结
第12章 数据流
12.1 概述
12.2 转换
12.2.1 分析
12.2.2 建模
12.2.3 管道
12.2.4 分布式R
12.3 Kafka
12.4 Shiny
12.5 小结
第13章 社区贡献
13.1 概述
13.2 Spark API
13.3 Spark扩展
13.4 使用Scala代码
13.5 小结
附录A 补充参考代码
作者介绍
封面介绍
大规模数据分析和建模:基于Spark与R是2020年由机械工业出版社华章分社出版,作者[美] Javier Luraschi。
得书感谢您对《大规模数据分析和建模:基于Spark与R》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。