Hadoop+Spark生态系统操作与实战指南

余辉

计算机与互联网类型

查阅电子书

手机扫码

微信扫一扫

关注微信公众号

因版权原因待上架

类似推荐

编辑推荐

全书分三篇: 1)Hadoop原生态组件；2)Spark原生态组件；3)Hadoop与Spark整合的项目实战。

内容简介

全书分为三篇，第一篇讲解了Hadoop的原生态组件，包括Hadoop以及Zookeeper、Hbase、Hive环境搭建与安装，以及对MapReduce、HDFS、Zookeeper、Hbase、Hive的原理介绍和实战操作。第二篇讲解了Spark的原生态组件，包括Scala、SparkSql、SparkStreaming、Dataframe，以及对Scala、SparkSql、SparkStreaming、Dataframe的原理介绍和实战操作。第三篇讲解了离线项目和在线项目，将Hadoop和Spark原生态组件进行整合。

章节目录

封面页

书名页

版权页

内容简介

推荐序

前言

第1章　◄Hadoop概述►

1.1　Hadoop简介

1.2　Hadoop版本和生态系统

1.3　MapReduce简介

1.4　HDFS简介

1.5　Eclipse+Java开发环境搭建

1.5.1　Java安装

1.5.2　Maven安装

1.5.3　Eclipse安装和配置

1.5.4　Eclipse创建Maven项目

1.5.5　Eclipse其余配置

1.6　小结

第2章　◄Hadoop集群搭建►

2.1　虚拟机简介

2.2　虚拟机配置

2.3　Linux系统设置

2.4　Apache版本Hadoop集群搭建

2.5　CDH版本Hadoop集群搭建

2.5.1　安装前期准备

2.5.2　Cloudera Manager安装

2.5.3　CDH安装

2.6　小结

第3章　◄Hadoop基础与原理►

3.1　MapReduce原理介绍

3.1.1　MapReduce的框架介绍

3.1.2　MapReduce的执行步骤

3.2　HDFS原理介绍

3.2.1　HDFS是什么

3.2.2　HDFS架构介绍

3.3　HDFS实战

3.3.1　HDFS客户端的操作

3.3.2　Java操作HDFS

3.4　YARN原理介绍

3.5　小结

第4章　◄ZooKeeper实战►

4.1　ZooKeeper原理介绍

4.1.1　ZooKeeper基本概念

4.1.2　ZooKeeper工作原理

4.1.3　ZooKeeper工作流程

4.2　ZooKeeper安装

4.3　ZooKeeper实战

4.3.1　ZooKeeper客户端的操作

4.3.2　Java操作ZooKeeper

4.3.3　Scala操作ZooKeeper

4.4　小结

第5章　◄MapReduce实战►

5.1　前期准备

5.2　查看YARN上的任务

5.3　加载配置文件

5.4　MapReduce实战

5.5　小结

第6章　◄HBase实战►

6.1　HBase简介及架构

6.2　HBase安装

6.3　HBase实战

6.3.1　HBase客户端的操作

6.3.2　Java操作HBase

6.3.3　Scala操作HBase

6.4　小结

第7章　◄Hive实战►

7.1　Hive介绍和架构

7.2　Hive数据类型和表结构

7.3　Hive分区、桶与倾斜

7.4　Hive安装

7.5　Hive实战

7.5.1　Hive客户端的操作

7.5.2　Hive常用命令

7.5.3　Java操作Hive

7.6　小结

第8章　◄Scala实战►

8.1　Scala简介与安装

8.2　IntelliJ IDEA开发环境搭建

8.2.1　IntelliJ IDEA简介

8.2.2　IntelliJ IDEA安装

8.2.3　软件配置

8.3　IntelliJ IDEA建立Maven项目

8.4　基础语法

8.5　函数

8.6　控制语句

8.7　函数式编程

8.8　模式匹配

8.9　类和对象

8.10　Scala异常处理

8.11　Trait（特征）

8.12　Scala文件I/O

8.13　作业

8.13.1　九九乘法表

8.13.2　冒泡排序

8.13.3　设计模式Command

8.13.4　集合对称判断

8.13.5　综合题

8.14　小结

第9章　◄Flume实战►

9.1　Flume概述

9.2　Flume的结构

9.3　Flume安装

9.4　Flume实战

9.5　小结

第10章　◄Kafka实战►

10.1　Kafka概述

10.1.1　简介

10.1.2　使用场景

10.2　Kafka设计原理

10.3　Kafka主要配置

10.4　Kafka客户端操作

10.5　Java操作Kafka

10.5.1　生产者

10.5.2　消费者

10.6　Flume连接Kafka

10.7　小结

第11章　◄Spark实战►

11.1　Spark概述

11.2　Spark基本概念

11.3　Spark算子实战及功能描述

11.3.1　Value型Transformation算子

11.3.2　Key-Value型Transformation算子

11.3.3　Actions算子

11.4　Spark Streaming实战

11.5　Spark SQL和DataFrame实战

11.6　小结

第12章　◄大数据网站日志分析项目►

12.1　项目介绍

12.2　网站离线项目

12.2.1　业务框架图

12.2.2　子服务“趋势分析”详解

12.2.3　表格的设计

12.2.4　提前准备

12.2.5　项目步骤

12.3　网站实时项目

12.3.1　业务框架图

12.3.2　子服务“当前在线”详解

12.3.3　表格的设计

12.3.4　提前准备

12.3.5　项目步骤

12.4　小结

Hadoop+Spark生态系统操作与实战指南是2017年由清华大学出版社出版,作者余辉。

得书感谢您对《Hadoop+Spark生态系统操作与实战指南》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。

得书 - 好书推荐、正版图书免费阅读