HadoopHDFS深度剖析与实践

HadoopHDFS深度剖析与实践

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

互联网大厂技术专家倾力之作,大数据学习者及从业者推荐读物。

内容简介

本书以HadoopHDFS为载体,介绍了构建一款分布式系统(尤其是存储方向)所需的核心技术,所有内容均基于当前较新的3.3.x/3.4.x版本,分别从理论和实践两个维度逐一阐述。

本书主要包括两篇:核心原理篇介绍了HDFS的诞生历史、元数据及Block管理、节点间通信机制、读写数据流程和高可用实现原理等;拓展与实践篇从实际出发,充分考虑了用户在应用过程中会遇到的痛点,详细介绍了集群拓展方法、数据分层存储、集群维护与多租户实施等实践经验。

本书各章节都配有必要的流程图和原理分析图,便于读者阅读理解,并精选了非常有用的实际案例及拓展知识。

作者简介

编著者祝江华,大数据技术专家。多年来一直供职于头部互联网公司,对包括Hadoop生态在内的多款组件有过深入研究,同时对大数据计算、数据湖等也有丰富实战经验。

章节目录

版权信息

前言

第1篇 核心原理篇

第1章 HDFS历史延展

1.1 分布式与文件系统

1.1.1 分布式文件系统部署架构

1.1.2 系统性能的影响因素

1.2 HDFS设计及实现思想

1.2.1 HDFS发展历史

1.2.2 HDFS特性

1.2.3 HDFS服务视图

1.2.4 HDFS架构

1.3 小结

第2章 元数据架构

2.1 内存Tree设计

2.1.1 Namenode介绍

2.1.2 Namenode启动

2.1.3 meta视图

2.1.4 FsDirectory和INodeMap

2.1.5 文件维护

2.2 FsImage和Edit Log

2.2.1 FsImage分析

2.2.2 Edit Log分析

2.3 meta更新

2.3.1 内存结构Update

2.3.2 拓展:锁优化

2.4 小结

第3章 数据管理

3.1 Namespace

3.1.1 Namespace概况

3.1.2 Namenode与Namespace

3.1.3 DataNode与Namespace

3.2 Slave节点

3.2.1 Heartbeat机制

3.2.2 FsDataset和DataStorage

3.2.3 DataNode检查器

3.2.4 存储类型

3.2.5 拓展:NVDIMM

3.3 Topology(Rack)Awareness

3.3.1 Topology Awareness在分布式存储中的意义

3.3.2 Topology Awareness在HDFS中实现

3.3.3 Topology改进

3.4 小结

第4章 Block与副本

4.1 理解Block

4.1.1 Block构成解析

4.1.2 副本存储解析

4.2 Block状态管理

4.2.1 UnderConstruction

4.2.2 Committed

4.2.3 Complete

4.2.4 UnderRecovery

4.2.5 Block状态小结

4.3 副本状态管理

4.3.1 RBW

4.3.2 finalized

4.3.3 RWR

4.3.4 RUR

4.3.5 Temporary

4.3.6 副本状态小结

4.4 Block管理

4.4.1 无效Block

4.4.2 损坏Block

4.4.3 缺失与冗余Block

4.4.4 Block Recovery

4.5 副本策略

4.5.1 位置策略

4.5.2 选盘(Volume)策略

4.5.3 选盘策略改进

4.6 小结

第5章 通信与访问

5.1 HDFS RPC

5.1.1 Protocol Buffers介绍

5.1.2 RPC架构

5.1.3 非幂等访问

5.2 文件写入

5.2.1 数据包(packet)与Pipeline

5.2.2 数据写入

5.2.3 Lease管理与pipeline Recovery

5.3 数据访问

5.3.1 文件读剖析

5.3.2 short-circuit

5.3.3 读写策略改进

5.4 小结

第6章 HA和QJM

6.1 HA发展路径

6.2 Quorum Journal Manager

6.2.1 分布式一致性原理

6.2.2 Edit共享存储系统

6.2.3 QJM架构设计

6.2.4 Edit Recovery

6.3 HA原理

6.3.1 ZKFC解析

6.3.2 HA隔离机制

6.3.3 Multi-Standby特性

6.3.4 HA优化及改进

6.4 小结

第7章 缓存

7.1 分布式系统缓存设计

7.1.1 本地缓存

7.1.2 分布式缓存

7.2 集中式缓存管理

7.2.1 原理介绍

7.2.2 缓存调度

7.2.3 DataNode缓存原理

7.2.4 Cache&Uncache场景

7.3 缓存实践场景及改进

7.3.1 实践场景介绍

7.3.2 集中式缓存V2

7.4 小结

第2篇 拓展与实践篇

第8章 集群拓展

8.1 水平拓展

8.1.1 水平拓展策略及实践

8.1.2 Router-Based Federation

8.2 垂直伸缩

8.2.1 垂直伸缩策略及实践

8.2.2 HDFS Quotas

8.3 多Namespace业务规划

8.4 小结

第9章 数据分层

9.1 存储分层的意义

9.2 HDFS存储分层

9.2.1 冷热集群分层管理

9.2.2 异构分层存储

9.2.3 动态感知数据类型

9.3 纠删码(Erasure Coding)

9.3.1 EC使用介绍

9.3.2 常见EC算法介绍

9.3.3 EC读写解析

9.4 数据迁移

9.4.1 DistCp迁移

9.4.2 FastCopy迁移

9.5 小结

第10章 监控、多租户和数据湖

10.1 大数据监控

10.1.1 基础设施监控采集

10.1.2 故障自愈

10.2 多租户与认证

10.2.1 多租户存储规划

10.2.2 基于Kerberos的认证

10.2.3 基于Delegation Token的认证

10.3 HDFS与Data Lakes

10.4 小结

HadoopHDFS深度剖析与实践是2023年由机械工业出版社出版,作者祝江华 编著。

得书感谢您对《HadoopHDFS深度剖析与实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
深度学习——原理、模型与实践 电子书
本书是深度学习领域的入门教材,全面阐述了深度学习的知识体系,涵盖人工智能的基础知识以及深度学习的基本原理、模型、方法和实践案例,使读者掌握深度学习的相关知识,提高以深度学习方法解决实际问题的能力。全书内容包括人工智能基础、机器学习基础、深度学习主要框架、深度神经网络、卷积神经网络、循环神经网络、自编码器与生成对抗网络。
深度学习原理与 TensorFlow实践 电子书
本书介绍了深度学习原理与TensorFlow实践。着重讲述了当前学术界和工业界的深度学习核心知识:机器学习概论、神经网络、深度学习。着重讲述了深度学习的实现以及深度学习框架TensorFlow:Python编程基础、TensorFlow编程基础、TensorFlow模型、TensorFlow编程实践、TensorFlowLite和TensorFlow.js、TensorFlow案例--医学应用和S
深度学习入门与TensorFlow实践 电子书
基于TensorFlow2,系统讲述如何搭建、训练和应用深度学习模型。
注册制企业IPO实战指南:IPO全流程与案例深度剖析 电子书
企业改制上市全攻略:引导拟上市企业熟悉注册制流程和条件,提供实用上市辅导。
选择的艺术:Photoshop图像处理深度剖析(第4版) 电子书
Photoshop重要的功能就是图像处理,图像处理的核主就是选择,这源于一个简单的道理“要改变某些像素,首先就要选中它”,因此称这本书为“选择的艺术”。 畅销书升级,4年沉淀,再次对Photoshop进行总结。 剖析Photoshop原理及本质,建立正确的“选择”观念。 理论结合实例讲解了路径、图层、通道、蒙版、滤镜、文字和绘画等操作技法。 详解色彩调整的方法与技巧,以及混合模式、HDR和Camera Raw等重点知识。 附赠资源 本书所有相关素材与PSD源文件