R大数据分析实用指南

R大数据分析实用指南

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书深入浅出讲解大数据基础及R语言应用,实用技巧丰富,理论实例相结合。

内容简介

本书从大数据的基础知识及相关行业标准开始讲解,陆续介绍了R语言处理大数据的相关知识。书中不仅包含R语言的语法结构、开发技巧及R语言的特色等,还包含一系列实用的开发技巧。本书包含丰富的代码示例,以理论和示例相结合的方式帮助读者更好地学习和掌握大数据分析的方方面面。

章节目录

版权信息

内容提要

作者简介

致谢

技术审稿人简介

前言

资源与支持

第1章 大数据时代

1.1 大数据——重新定义怪物

1.2 大数据工具箱 ——为大而生

1.2.1 Hadoop——屋中之象

1.2.2 数据库

1.2.3 Hadoop的Spark化

1.3 R语言 ——大数据的无冕之王

1.4 小结

第2章 R编程语言与统计环境的介绍

2.1 学习R

2.2 R语言基础回顾

2.2.1 准备R和RStudio

2.2.2 R语言数据结构

2.2.3 导出R数据对象

2.3 应用数据科学与R

2.3.1 导入不同格式的数据

2.3.2 探索性数据分析

2.3.3 数据聚合和列联表

2.3.4 假设检验和统计推断

2.3.5 数据可视化包

2.4 小结

第3章 由内而外释放R的力量

3.1 R的传统局限性

3.1.1 内存外的数据

3.1.2 处理速度

3.2 超越内存限制

3.2.1 使用ff和ffbase软件包进行数据转换和聚合

3.2.2 使用ff和ffbase包的广义线性模型

3.2.3 使用bigmemory包扩展内存

3.3 R的并行

3.3.1 从bigmemory到更快的计算

3.3.2 未来的R并行处理

3.4 使用data.table包和其他工具提高R性能

3.4.1 使用data.table包快速数据导入和操作

3.4.2 编写更好的R代码

3.5 小结

第4章 R相关的Hadoop和MapReduce框架

4.1 Hadoop架构

4.1.1 Hadoop分布式文件系统

4.1.2 MapReduce框架

4.1.3 其他Hadoop原生工具

4.1.4 学习Hadoop

4.2 云上的单节点Hadoop

4.2.1 在Azure上部署Hortonworks Sandbox

4.2.2 Java语言的Hadoop单词记数示例

4.2.3 R语言的Hadoop单词记数示例

4.3 HDInsight ——Azure上的多节点Hadoop集群

4.3.1 创建第一个HDInsight集群

4.3.2 智能电表数据分析示例——在HDInsight集群上使用R

4.4 小结

第5章 R与关系型数据库管理系统(RDBMS)

5.1 关系型数据库管理系统(RDBMS)

5.1.1 常用RDBMS简介

5.1.2 结构化查询语言(SQL)

5.2 用SQLite连接R

5.2.1 准备并导入数据到本地SQLite数据库

5.2.2 通过RStudio连接SQLite数据库

5.3 在Amazon EC2实例中连接MariaDB和R

5.3.1 准备EC2实例和RStudio服务器

5.3.2 准备MariaDB和数据

5.3.3 连接MariaDB和RStudio

5.4 连接Amazon RDS上的PostgreSQL和R

5.4.1 启动一个Amazon RDS数据库实例

5.4.2 准备并上传数据到Amazon RDS上

5.4.3 从RStudio 远程查询 Amazon RDS上的PostgreSQL

5.5 小结

第6章 R与非关系型数据库

6.1 NoSQL数据库简介

流行非关系型数据库简介

6.2 用R操作MongoDB

6.2.1 MongoDB简介

6.2.2 在Amazon EC2上安装MongoDB并与R连接

6.2.3 使用MongoDB和R处理大数据

6.3 Hbase与R

6.3.1 Azure HDInsight与HBase和RStudio Server

6.3.2 将数据导入HDFS和HBase

6.3.3 使用rhbase包读取和查阅 Hbase

6.4 小结

第7章 比Hadoop更快——使用R编写Spark

7.1 为大数据分析服务的Spark

7.2 多节点HDInsight集群上使用R的Spark

7.2.1 部署使用支持Spark和R/RStudio的HDInsight

7.2.2 将数据读入HDFS和Hive

7.2.3 使用SparkR分析湾区共享单车数据

7.3 小结

第8章 R语言大数据机器学习

8.1 机器学习是什么

8.1.1 机器学习算法

8.1.2 监督和无监督机器学习方法

8.1.3 分类和聚类算法

8.1.4 R机器学习方法

8.1.5 大数据机器学习工具

8.2 在HDInsight集群中使用Spark和R的GLM示例

8.2.1 准备Spark群集并从HDFS读取数据

8.2.2 Spark中的R语言逻辑回归

8.3 R中基于Hadoop H2O 的朴素贝叶斯

8.3.1 在R中运行Hadoop上的H2O实例

8.3.2 读取和探索H2O中的数据

8.3.3 R中基于H2O的朴素贝叶斯

8.4 R中基于Hadoop H2O 的神经网络

8.4.1 神经网络的工作原理

8.4.2 在H2O上运行神经网络模型

8.5 小结

第9章 R语言的未来 ——大数据、快数据、智能数据

9.1 R大数据分析的现状

9.1.1 超过单机内存的数据

9.1.2 更快的R数据处理

9.1.3 Hadoop与R

9.1.4 Spark与R

9.1.5 R与数据库

9.1.6 机器学习与R

9.2 R的未来

9.2.1 大数据

9.2.2 快数据

9.2.3 智能数据

9.3 如何提升

9.4 小结

版权声明

R大数据分析实用指南是2019年由人民邮电出版社出版,作者 (英) 西蒙·沃克威克 (Simon Walkowiak) 。

得书感谢您对《R大数据分析实用指南》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
中文版CINEMA 4D R20 实用教程 电子书
本书内容以各种实用技术为主线,主要讲解了建模、摄像机、灯光、材质与纹理、环境与渲染、动力学、粒子及动画等技术,以及4个典型综合实例等内容。
中文版CINEMA 4D R18 实用教程 电子书
附赠教学资源74个课堂案例、课后习题的工程文件和场景文件88集(共计5个多小时)的书中知识点演示视频11个多小时的所有课堂案例和课后习题的教学视频13章配套教学PPT课件附录提供94个软件默认键盘快捷键和51个常用物体折射率数据
中文版CINEMA 4D R20 实用教程(全彩版) 电子书
本书针对零基础读者开发,是指导初学者快速掌握CINEMA4D的参考书。全书内容以各种实用技术为主线,主要讲解了建模、摄像机、灯光、材质与纹理、环境与渲染、动力学、粒子及动画等技术,以及4个典型综合实例等内容。
质性研究数据分析工具NVivo12实用教程 电子书
本书全面讲解软件功能、演练实战案例、接触商业应用。
人人都是数据分析师:微软Power BI实践指南 电子书
Power BI是微软于2016年发布的又一shen器,它是一套商业分析工具,拥有强大的数据分析和可视化能力,可连接数百个数据源、简化数据准备并提供即时分析,生成美观的报表并进行发布,供企业、组织、个人在Web和移动设备等多个平台上使用。 本书由微软zi深工程师编著,内容全面,讲解详细,面向企业实战应用;随书提供案例资源文件供下载,便于读者动手实践;可帮助职场人士快速从Excel进阶到Power BI,无需任何复杂的编程,通过本书的学习,读者jiu可以轻松搞定各种酷炫报表,探察数据背后的真相。