Hadoop+Spark生态系统操作与实战指南

Hadoop+Spark生态系统操作与实战指南

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

全书分三篇: 1)Hadoop原生态组件;2)Spark原生态组件;3)Hadoop与Spark整合的项目实战。

内容简介

全书分为三篇,第一篇讲解了Hadoop的原生态组件,包括Hadoop以及Zookeeper、Hbase、Hive环境搭建与安装,以及对MapReduce、HDFS、Zookeeper、Hbase、Hive的原理介绍和实战操作。第二篇讲解了Spark的原生态组件,包括Scala、SparkSql、SparkStreaming、Dataframe,以及对Scala、SparkSql、SparkStreaming、Dataframe的原理介绍和实战操作。第三篇讲解了离线项目和在线项目,将Hadoop和Spark原生态组件进行整合。

章节目录

封面页

书名页

版权页

内容简介

推荐序

前言

目录

第1章 ◄Hadoop概述►

1.1 Hadoop简介

1.2 Hadoop版本和生态系统

1.3 MapReduce简介

1.4 HDFS简介

1.5 Eclipse+Java开发环境搭建

1.5.1 Java安装

1.5.2 Maven安装

1.5.3 Eclipse安装和配置

1.5.4 Eclipse创建Maven项目

1.5.5 Eclipse其余配置

1.6 小结

第2章 ◄Hadoop集群搭建►

2.1 虚拟机简介

2.2 虚拟机配置

2.3 Linux系统设置

2.4 Apache版本Hadoop集群搭建

2.5 CDH版本Hadoop集群搭建

2.5.1 安装前期准备

2.5.2 Cloudera Manager安装

2.5.3 CDH安装

2.6 小结

第3章 ◄Hadoop基础与原理►

3.1 MapReduce原理介绍

3.1.1 MapReduce的框架介绍

3.1.2 MapReduce的执行步骤

3.2 HDFS原理介绍

3.2.1 HDFS是什么

3.2.2 HDFS架构介绍

3.3 HDFS实战

3.3.1 HDFS客户端的操作

3.3.2 Java操作HDFS

3.4 YARN原理介绍

3.5 小结

第4章 ◄ZooKeeper实战►

4.1 ZooKeeper原理介绍

4.1.1 ZooKeeper基本概念

4.1.2 ZooKeeper工作原理

4.1.3 ZooKeeper工作流程

4.2 ZooKeeper安装

4.3 ZooKeeper实战

4.3.1 ZooKeeper客户端的操作

4.3.2 Java操作ZooKeeper

4.3.3 Scala操作ZooKeeper

4.4 小结

第5章 ◄MapReduce实战►

5.1 前期准备

5.2 查看YARN上的任务

5.3 加载配置文件

5.4 MapReduce实战

5.5 小结

第6章 ◄HBase实战►

6.1 HBase简介及架构

6.2 HBase安装

6.3 HBase实战

6.3.1 HBase客户端的操作

6.3.2 Java操作HBase

6.3.3 Scala操作HBase

6.4 小结

第7章 ◄Hive实战►

7.1 Hive介绍和架构

7.2 Hive数据类型和表结构

7.3 Hive分区、桶与倾斜

7.4 Hive安装

7.5 Hive实战

7.5.1 Hive客户端的操作

7.5.2 Hive常用命令

7.5.3 Java操作Hive

7.6 小结

第8章 ◄Scala实战►

8.1 Scala简介与安装

8.2 IntelliJ IDEA开发环境搭建

8.2.1 IntelliJ IDEA简介

8.2.2 IntelliJ IDEA安装

8.2.3 软件配置

8.3 IntelliJ IDEA建立Maven项目

8.4 基础语法

8.5 函数

8.6 控制语句

8.7 函数式编程

8.8 模式匹配

8.9 类和对象

8.10 Scala异常处理

8.11 Trait(特征)

8.12 Scala文件I/O

8.13 作业

8.13.1 九九乘法表

8.13.2 冒泡排序

8.13.3 设计模式Command

8.13.4 集合对称判断

8.13.5 综合题

8.14 小结

第9章 ◄Flume实战►

9.1 Flume概述

9.2 Flume的结构

9.3 Flume安装

9.4 Flume实战

9.5 小结

第10章 ◄Kafka实战►

10.1 Kafka概述

10.1.1 简介

10.1.2 使用场景

10.2 Kafka设计原理

10.3 Kafka主要配置

10.4 Kafka客户端操作

10.5 Java操作Kafka

10.5.1 生产者

10.5.2 消费者

10.6 Flume连接Kafka

10.7 小结

第11章 ◄Spark实战►

11.1 Spark概述

11.2 Spark基本概念

11.3 Spark算子实战及功能描述

11.3.1 Value型Transformation算子

11.3.2 Key-Value型Transformation算子

11.3.3 Actions算子

11.4 Spark Streaming实战

11.5 Spark SQL和DataFrame实战

11.6 小结

第12章 ◄大数据网站日志分析项目►

12.1 项目介绍

12.2 网站离线项目

12.2.1 业务框架图

12.2.2 子服务“趋势分析”详解

12.2.3 表格的设计

12.2.4 提前准备

12.2.5 项目步骤

12.3 网站实时项目

12.3.1 业务框架图

12.3.2 子服务“当前在线”详解

12.3.3 表格的设计

12.3.4 提前准备

12.3.5 项目步骤

12.4 小结

Hadoop+Spark生态系统操作与实战指南是2017年由清华大学出版社出版,作者余辉。

得书感谢您对《Hadoop+Spark生态系统操作与实战指南》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
VMwarevSphere7.0虚拟化架构实战指南 电子书
本书针对VMware vSphere 7.0虚拟化架构在生产环境中的实际需求,分8章详细介绍了在生产环境中如何部署VMware vSphere 7.0。
VMwarevSphere6.0虚拟化架构实战指南 电子书
本书语言通俗易懂,可操作性强,适用于VMware vSphere 6.0虚拟化架构管理人员,并可作为VCP 6考试的参考资料。
用户至上:移动UI设计实战指南 电子书
一本从用户体验的角度出发,重点讲解移动UI设计方法的专业教程。
业务中台产品搭建指南:电商业务平台全流程设计与实战 电子书
建立业务中台架构的宏观概念,解析业务中台系统之间的关系和交互逻辑,帮助产品经理从零搭建业务平台。
数控编程与操作(第2版) 电子书
本书以数控车床、数控铣床(加工中心)、数控电火花线切割的编程与操作为核心,以FANUC数控系统和华中数控系统为主,按照学习与教学的规律,深入浅出地详细介绍数控加工工艺、数控车削与铣削的编程、数控电火花线切割的编程、数控机床的操作以及典型零件的应用实例等内容。所有零件加工程序语句都附有详细、清晰的注释说明。各章后设有习题,便于学生更好地掌握所学内容;书的**后附有FANUC和华中世纪之星数控车削指令