Hadoop3大数据技术快速入门

Hadoop3大数据技术快速入门

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书适合Java大数据开发人员快速掌握Hadoop技术。

内容简介

本书基于Hadoop 3.3.0,覆盖Hadoop、HBase、Hive的核心概念、实践应用、程序开发等方面的内容,帮你快速解决大数据是什么和怎么用的问题,书中还利用Docker来部署Hadoop分布式集群,让你同时学会4种流行的技术。

本书共9章,主要内容包括Hadoop概述、HDFS原理详解、Yarn原理详解、Hadoop系统配置、高可用Hadoop配置、HDFS编程、MapReduce编程、Hive实战、HBase实战。

本书从案例入手、通俗易懂,能使读者在短时间内迅速掌握Hadoop大数据技术。

作者简介

作者牛搞,软件开发从业15年编程实战经验,流媒体技术专家,高性能服务器专家。CSDN知名博主。现为IOS、Adroid、C 高级培训讲师。著有图书《Android 9编程通俗演义》《Android 10 Kotlin编程通俗演义》。

章节目录

版权信息

内容简介

前言

第1章 概述

1.1 什么是大数据

1.1.1 大数据系统的定位

1.1.2 与传统分布式系统的区别

1.1.3 成功的大数据系统项目

1.2 Hadoop的原理

1.2.1 存储与资源调度

1.2.2 计算框架原理

1.3 总结

第2章 HDFS原理详解

2.1 主从节点架构

2.2 数据冗余

2.3 fsimage与edits

2.4 SecondaryNameNode

2.5 HA

2.6 自动故障转移

2.7 ZooKeeper

2.8 防脑裂

2.9 联邦

2.10 总结

第3章 Yarn原理详解

3.1 概述

3.2 作业调度策略

3.2.1 容量调度器

3.2.2 公平调度器

3.2.3 队列其他事项

3.3 Yarn与MapReduce程序

第4章 配置Hadoop系统

4.1 Docker简介

4.2 安装Docker

4.2.1 Windows、macOS做宿主系统

4.2.2 Linux做宿主系统

4.2.3 测试Docker容器

4.3 创建Hadoop容器

4.4 配置独立模式Hadoop

4.5 配置伪分布Hadoop

4.5.1 安装并配置SSH

4.5.2 安装其他命令行程序

4.5.3 编辑core-site.xml

4.5.4 编辑hdfs-site.xml

4.5.5 编辑mapred-site.xml

4.5.6 编辑yarn-site.xml

4.5.7 编辑hadoop-env.sh

4.5.8 运行伪分布式Hadoop

4.5.9 状态监控

4.6 基于Dockerfile的伪分布Hadoop

4.6.1 Dockerfile

4.6.2 构建Hadoop镜像

4.6.3 运行容器

4.6.4 配置Hadoop

4.7 配置全分布式Hadoop

4.7.1 组件部署架构

4.7.2 配置思路

4.7.3 修改配置文件

4.7.4 创建集群

4.7.5 启动集群

4.8 Windows下运行Hadoop

4.8.1 配置独立模式Hadoop

4.8.2 配置伪分布式Hadoop

4.9 Yarn调度配置

4.9.1 容量调度器

4.9.2 公平调度器

第5章 配置高可用Hadoop

5.1 HDFS高可用

5.1.1 组件部署架构

5.1.2 修改配置文件

5.1.3 创建镜像

5.1.4 创建HA HDFS集群

5.1.5 运行HA HDFS

5.1.6 测试HA HDFS

5.1.7 NameNode自动故障转移

5.2 Yarn高可用

第6章 HDFS编程

6.1 安装开发工具

6.1.1 安装Git

6.1.2 安装Maven

6.1.3 安装VSCode

6.1.4 安装VSCode插件

6.2 Native编程

6.2.1 创建HDFS客户端项目

6.2.2 示例1:查看目录状态

6.2.3 添加依赖库

6.2.4 运行程序

6.2.5 示例2:创建目录和文件

6.2.6 示例3:读取文件内容

6.2.7 示例4:上传和下载文件

6.3 WebHDFS与HttpFS

6.3.1 WebHDFS

6.3.2 VSCode插件RestClient

6.3.3 HttpFS

第7章 MapReduce编程

7.1 准备测试环境与创建项目

7.2 添加MapReduce逻辑

7.2.1 添加Map类

7.2.2 添加Reduce类

7.3 创建Job

7.4 添加依赖库

7.5 运行程序

7.6 查看运行日志

7.7 在Hadoop中运行程序

7.8 Combiner

7.9 Mapper与Reducer数量

7.10 实现SQL语句

7.10.1 简单查询

7.10.2 排序

7.10.3 复杂排序

7.10.4 分区

7.10.5 组合

7.10.6 总结

7.11 实现SQL JOIN

7.11.1 INNER JOIN

7.11.2 MapReduce实现JOIN

7.11.3 Mapper JOIN

7.11.4 DistributedCache

7.12 Counter

7.13 其他组件

7.14 升级版的WordCount

7.15 分布式k-means

7.15.1 Mapper类

7.15.2 Reducer类

7.15.3 执行任务的方法

7.15.4 辅助类

7.15.5 运行

7.15.6 MapReduce深入剖析

第8章 Hive

8.1 Hive的设计架构

8.2 运行架构

8.3 安装配置Hive3

8.3.1 安装依赖软件

8.3.2 创建Hive镜像Dockerfile

8.3.3 创建docker-compose.yml

8.3.4 Hadoop配置调整

8.3.5 为Hive准备数据库

8.4 运行Hive3

8.5 其他运行方式

8.5.1 MetaStore单独运行

8.5.2 嵌入Meta数据库

8.5.3 HiveServer2与beeline合体

8.6 Hive数据管理

8.6.1 基本操作

8.6.2 Hive表

8.6.3 数据倾斜

8.7 Hive查询优化

8.8 索引

8.9 HCatalog

8.10 Hive编程

8.10.1 JDBC操作Hive

8.10.2 自定义函数

8.11 总结

第9章 HBase

9.1 什么是HBase

9.2 HBase架构

9.3 安装与配置

9.3.1 独立模式运行

9.3.2 伪分布模式

9.3.3 全分布模式

9.4 基本数据操作

9.4.1 表管理

9.4.2 添加数据

9.4.3 修改数据

9.4.4 获取数据

9.4.5 删除数据

9.5 HBase设计原理

9.5.1 Region

9.5.2 定位数据

9.5.3 数据存储模型

9.5.4 快速写的秘密

9.5.5 快速读的秘密

9.5.6 合并StoreFile

9.5.7 Region拆分与合并

9.5.8 故障恢复

9.5.9 总结

9.6 HBase应用编程

9.6.1 Java API访问HBase

9.6.2 使用扫描过滤器

9.6.3 MapReduce访问HBase表

9.7 总结

后记

Hadoop3大数据技术快速入门是2021年由清华大学出版社出版,作者牛搞。

得书感谢您对《Hadoop3大数据技术快速入门》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
图解Spark:大数据快速分析实战 电子书
基于大数据分析实战,图文并茂,系统讲解Spark内核的原理,有助于读者快速掌握Spark开源集群计算框架的使用方法,涵盖Spark 3.0新特性。
Python3快速入门与实战 电子书
理论与实战相结合,结合大量案例系统为你介绍Python。
Python快速编程入门(第2版) 电子书
本书以PyCharm为主要开发工具,采用理论与实训案例相结合的形式,系统性地讲解Python的核心知识。全书共11章,其中,第1~10章介绍Python语言的核心理论知识,包括基础知识、流程控制、字符串、组合数据类型、函数、文件与数据格式化、面向对象、异常和Python计算生态与常用库;第11章围绕着前期学习的理论知识开发一个游戏项目——飞机大战。除第1章和第11章外,其他章均配有丰富的实训案例和
从零开始:Python快速入门教程 电子书
本书以零基础讲解为宗旨,用实例引导读者学习,深入浅出地介绍Python的相关知识和实战技能。
大数据存储技术 电子书
本书由浅入深,层层深入,从基本原理着手,逐步过渡到大数据存储的新技术的发展。