类似推荐
编辑推荐
Hadoop:大数据分布式处理框架,10章深入浅出解读。
内容简介
Hadoop作为对大量数据进行分布式处理的软件框架,能够可靠、高效、可伸缩的方式进行数据处理,是谷歌实现云计算的重要基石。本书分10个章节,深入浅出地介绍了Hadoop的安装与配置、HDFSHA及解决方案、HDFS元数据解析、元数据备份方案、Backup Node方案、MapReduce设计理念与基本架、MapReduce编程模型、YARN设计理念与基本架构、YARN基础库。
章节目录
封面
书名页
内容简介
版权页
前言
目录
第1章 Hadoop简介
1.1 Hadoop相关介绍
1.1.1 Hadoop概述
1.1.2 Hadoop的历史
1.1.3 Hadoop的功能与作用
1.1.4 Hadoop的优势
1.1.5 Hadoop的应用现状与趋势
1.2 Hadoop的项目
1.3 Hadoop的体系结构
1.4 Hadoop与分布式开发
1.5 Hadoop计算模型
1.6 Hadoop的数据管理
1.6.1 HDFS的数据管理
1.6.2 HBase的数据管理
1.6.3 Hive的数据管理
1.7 Hadoop集群安全策略
思考练习
第2章 Hadoop的安装与配置
2.1 在Linux上安装与配置Hadoop
2.1.1 安装JDK1.6
2.1.2 配置SSH免密码登录
2.1.3 安装并运行Hadoop
2.2 在Mac OSX上安装与配置Hadoop
2.2.1 安装Homebrew
2.2.2 使用Homebrew安装Hadoop
2.2.3 配置SSH和使用Hadoop
2.3 在Windows上安装与配置Hadoop
2.3.1 安装JDK1.6或更高版本
2.3.2 安装Cygwin
2.3.3 配置环境变量
2.3.4 安装sshd服务
2.3.5 启动sshd服务
2.3.6 配置SSH免密码登录
2.3.7 安装并运行Hadoop
2.4 安装与配置Hadoop集群
2.4.1 网络拓扑
2.4.2 定义集群拓扑
2.4.3 建立和安装Cluster
2.5 日志分析及几个小技巧
思考练习
第3章 HDFS HA及解决方案
3.1 HDFS系统架构
3.2 HA定义
3.3 HDFS HA原因分析及应对措施
3.3.1 可靠性
3.3.2 可维护性
3.4 Hadoop的HA解决方案
3.4.1 Hadoop的元数据备份方案
3.4.2 Hadoop的SecondaryNameNode方案
3.4.3 Hadoop的CheckpointNode方案
3.4.4 Hadoop的BackupNode方案
3.4.5 DRDB方案
3.4.6 Facebook的AvatarNode方案
3.5 方案的优点与缺点比较
思考练习
第4章 HDFS元数据解析
4.1 概 述
4.2 内存元数据结构
4.2.1 INode
4.2.2 Block
4.2.3 BlockInfo和DatanodeDescriptor
4.2.4 小结
4.2.5 代码分析—元数据结构
4.3 磁盘元数据文件
4.4 format情景分析
4.5 元数据应用场景分析
思考练习
第5章 Hadoop的元数据备份方案
5.1 运行机制分析
5.1.1 NameNode启动加载元数据情景分析
5.1.2 元数据更新及日志写入情景分析
5.1.3 Checkpoint 过程情景分析
5.1.4 元数据可靠性机制
5.2 使用说明
思考练习
第6章 Hadoop的BackupNode方案
6.1 BackupNode概述
6.1.1 系统架构
6.1.2 使用原则
6.2 运行机制分析
6.2.1 运行机制
6.2.2 元数据操作情景分析
6.2.3 日志池机制
6.2.4 故障切换机制
6.3 实验方案说明
6.4 构建实验环境
6.4.1 网络拓扑
6.4.2 系统安装及配置
6.4.3 安装JDK
6.4.4 虚拟机集群架设
6.4.5 NameNode安装及配置
6.4.6 BackupNode安装及配置
6.4.7 DataNode安装及配置
6.4.8 Clients安装及配置
6.5 异常解决方案
6.5.1 异常情况分析
6.5.2 NameNode配置
6.5.3 BackupNode配置
6.5.4 DataNode配置
6.5.5 NameNode宕机切换实验
6.5.6 NameNode宕机读/写测试
思考练习
第7章 MapReduce设计理念与基本架构
7.1 Hadoop MapReduce设计目标
7.2 MapReduce编程模型概述
7.2.1 MapReduce编程模型简介
7.2.2 MapReduce编程实例
7.3 Hadoop基本架构
7.3.1 HDFS架构
7.3.2 Hadoop MapReduce架构
7.4 Hadoop MapReduce作业的生命周期
思考练习
第8章 MapReduce编程模型
8.1 MapReduce编程模型概述
8.1.1 MapReduce编程接口体系结构
8.1.2 新版与旧版MapReduce API比较
8.2 MapReduce API基本概念
8.2.1 序列化
8.2.2 Reporter参数
8.2.3 回调机制
8.3 Java API解析
8.3.1 作业配置与提交
8.3.2 InputFormat接口的设计与实现
8.3.3 OutputFormat接口的设计与实现
8.3.4 Mapper与Reducer解析
8.3.5 Partitioner接口的设计与实现
8.4 非Java API解析
8.4.1 Hadoop Streaming的实现原理
8.4.2 Hadoop Pipes的实现原理
8.5 Hadoop工作流
8.5.1 JobControl的实现原理
8.5.2 ChainMapper/ChainReducer的实现原理
8.5.3 Hadoop工作流引擎
思考练习
第9章 YARN设计理念与基本架构
9.1 YARN产生背景
9.1.1 MRv1的局限性
9.1.2 轻量级弹性计算平台
9.2 Hadoop基础知识
9.2.1 术语解释
9.2.2 Hadoop的版本变迁
9.3 YARN基本设计思想
9.3.1 基本框架对比
9.3.2 编程模型对比
9.4 YARN基本架构
9.4.1 YARN基本组成结构
9.4.2 YARN通信协议
9.5 YARN工作流程
9.6 多角度理解YARN
9.6.1 并行编程
9.6.2 资源管理系统
9.6.3 云计算
思考练习
第10章 YARN基础库
10.1 YARN基础库概述
10.2 第三方开源库
10.2.1 Protocol Buffers
10.2.2 Apache Avro
10.3 底层通信库
10.3.1 RPC通信模型
10.3.2 Hadoop RPC的特点概述
10.3.3 RPC总体架构
10.3.4 Hadoop RPC使用方法
10.3.5 Hadoop RPC类详解
10.3.6 Hadoop RPC参数调优
10.3.7 YARN RPC实现
10.3.8 YARN RPC应用实例
10.4 服务库与事件库
10.4.1 服务库
10.4.2 事件库
10.4.3 YARN服务库和事件库的使用方法
10.4.4 事件驱动带来的变化
10.5 状态机库
10.5.1 YARN状态转换方式
10.5.2 状态机类
10.5.3 状态机的使用方法
10.5.4 状态机可视化
10.6 源代码阅读引导
思考练习
参考文献
反侵权盗版声明
封底
Hadoop构建数据仓库与实战分析是2019年由电子工业出版社出版,作者小牛学堂。
得书感谢您对《Hadoop构建数据仓库与实战分析》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。