Hadoop3实战指南

Hadoop3实战指南

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

编辑推荐

基于全新的Hadoop 3.x,主要分析Hadoop 3.2.0的新特性和新功能,以企业级真实案例详细解读,带你全方位掌握大数据处理分析、分布式计算等。

内容简介

本书主要分析Hadoop 3.2.0的新特性和新功能,共5章。首先简单介绍Hadoop,让刚接触Hadoop的读者对它有个基本了解; 接着介绍目前使用比较多的分布式文件系统HDFS,内容涉及NameNode 的原理、HA、HDFS Federation和HDFS 3.0中新增的特性;然后从应用管理和资源调度这两个方面介绍一个通用的资源管理平台YARN;再后讨论如何在YARN平台中运行应用,比如如何将应用迁移到YARN平台,以及非Hadoop的应用是如何兼容YARN模式的。最后,书中给出了一些工作实战指南,包括如何搭建一个生产可用的Hadoop 3.0集群;如何将现有Hadoop 2.0集群升级到Hadoop 3.0,及其在升级过程中遇到的问题;如何针对Hadoop进行二次开发,并参与社区,向社区贡献代码;一个大数据平台应具备哪些必备组件等。

作者简介

孙志伟

金山云数据平台架构师,专注于Hadoop生态和数据平台建设,曾就职于网易、转转等互联网公司。对大数据处理、分布式计算与数据采集有着浓厚的兴趣。一直从事Hadoop 研发与运维工作,努力钻研技术并坚持分享。有着丰富的一线研发与运维经验,是多个社区的Contributor,积极活跃于开源社区。

硕士,毕业于华北电力大学。

章节目录

版权信息

前言

第1章 Hadoop

1.1 简介

1.1.1 Hadoop 1.0

1.1.2 Hadoop 2.0

1.2 Hadoop 3.0

1.3 阅读Hadoop源码

1.3.1 单元测试

1.3.2 断点调试代码

1.4 小结

第2章 HDFS

2.1 HDFS简介

2.2 解析NameNode中的元数据及其内存结构

2.2.1 解析NameNode中的元数据

2.2.2 解析NameNode的内存结构

2.3 解析NameNode的HA功能

2.3.1 基于QJM的HA

2.3.2 故障转移

2.3.3 多NameNode模式

2.4 HDFS的Federation

2.4.1 基于viewfs的Federation

2.4.2 基于Router的Federation

2.5 纠删码

2.5.1 纠删码的原理

2.5.2 HDFS EC

2.5.3 HDFS EC的实现

2.5.4 对比HDFS EC策略与三副本策略

2.6 下一代对象存储系统Ozone

2.6.1 Ozone初体验

2.6.2 Ozone架构

2.7 小结

第3章 YARN

3.1 YARN简介

3.2 解析ResourceManager的HA功能

3.2.1 故障转移

3.2.2 数据恢复

3.3 YARN Federation

3.3.1 架构

3.3.2 Router

3.3.3 State Store和Policy Store

3.3.4 AMRMProxy

3.3.5 跨子集群运行

3.4 中央调度器

3.4.1 Capacity调度器

3.4.2 Fair调度器

3.4.3 调度扩展

3.5 分布式调度器

3.5.1 分布式调度器的架构

3.5.2 opportunistic container

3.6 YARN Shared Cache

3.6.1 资源本地化

3.6.2 Shared Cache的架构

3.6.3 Shared Cache实例

3.7 小结

第4章 Application on YARN

4.1 MapReduce的简介

4.2 MapReduce的源码分析

4.2.1 InputSplit

4.2.2 环形缓冲区

4.2.3 溢写和归并

4.2.4 Shuffle

4.3 MapReduce on YARN

4.3.1 YARN的事件机制和状态机机制

4.3.2 MR ApplicationMaster

4.4 Application on YARN

4.5 小结

第5章 实战指南

5.1 Hadoop 3.x 的部署

5.1.1 Hadoop 3.x HA的部署

5.1.2 Hadoop 3.x Federation的部署

5.2 Hadoop升级

5.2.1 Hadoop 2.0升级为Hadoop 3.0

5.2.2 Hadoop 3.0降级为Hadoop 2.0

5.2.3 升级/降级中遇到的问题

5.3 二次开发

5.3.1 与其他自研系统融合

5.3.2 自身功能扩展之自动识别修复后的数据盘

5.3.3 合并社区Patch

5.3.4 提交Pull Request

5.4 周边系统平台

5.4.1 任务调度平台

5.4.2 监控平台

5.4.3 集群诊断分析平台

5.5 小结

作者简介

Hadoop3实战指南是2021年由人民邮电出版社出版,作者孙志伟。

得书感谢您对《Hadoop3实战指南》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
Spark海量数据处理:技术详解与平台实战 电子书
在数字经济时代,数据是重要的资源要素;同时,新的数据又在源源不断地产生,企业面临的一个基本问题就是如何管理和利用这些数据,这对传统的数据处理方法与分析框架提出了新的诉求和挑战,也是全球业界与学界为关心的问题。为了满足大数据时代对信息的快速处理的需求,一个分布式的开源计算框架Apache Spark应运而生。经过十年的发展,Spark已经成为目前大数据处理的标杆,在整个业界得到了广泛的使用。对大数据工程师来说,用Spark构建数据管道无疑是很好的选择,而对数据科学家来说,Spark也是高效的数据探索工具。 本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,技术理论与实战相结合,层次分明,循序渐进。本书不仅介绍了如何开发Spark应用的基础内容,包括Spark架构、Spark编程、SparkSQL、Spark调优等,还探讨了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习、Alluxio系统等高级主题,同时完整实现了一个企业背景调查系统,借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足业务需求。学习该系统可以使读者从实战中巩固所学,并将技术理论与应用实战融会贯通。 本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。
首席数据官知识体系指南 电子书
数字时代的CDO生存手册,国际数据管理协会(DAMA)推荐读物。
大数据技术基础——基于Hadoop与Spark 电子书
将Hadoop和Spark组合起来进行剖析,呈现完整的大数据技术方案。
大数据存储技术 电子书
本书由浅入深,层层深入,从基本原理着手,逐步过渡到大数据存储的新技术的发展。
MySQL数据库运维与管理(微课版) 电子书
随着企业数字化转型不断深化,企业对数据库工程师的需求越来越大。本书结合实际工作场景,将企业数据库运维的相关工作分为10个项目,内容包括了解数据库运维工作,安装和配置MySQL,管理MySQL权限与安全,分析MySQL日志,备份与恢复MySQL,监控、测试并优化MySQL性能,MySQL复制,搭建及运维MySQLCluster,结合Redis的MySQL运维,数据库自动化运维。本书配套教学PPT、题