ClouderaHadoop大数据平台实战指南

ClouderaHadoop大数据平台实战指南

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书详解Cloudera大数据技术,实践操作、真实案例分享。

内容简介

本书共分为18章,详细讲解Cloudera大数据平台及相关组件的各种技术,包括hive、storm、hbase、kafka、spark等技术。配套有上机实践操作,让读者更好地学习掌握大数据关键技术。还有大数据企业应用实际真实案例分享,包括源代码文件,对读者有极大的参考价值。

章节目录

封面页

书名页

版权页

内容简介

推荐序一

推荐序二

推荐序三

前言

关于本书

资源下载与技术支持

致谢

目录

第1章 大数据概述

1.1 大数据时代的数据特点

1.2 大数据时代的发展趋势——数据将成为资产

1.3 大数据时代处理数据理念的改变

1.3.1 要全体不要抽样

1.3.2 要效率不要绝对精确

1.3.3 要相关不要因果

1.4 大数据时代的关键技术

1.5 大数据时代的典型应用案例

1.5.1 塔吉特超市精准营销案例

1.5.2 谷歌流感趋势案例

1.5.3 证券行业案例

1.5.4 某运营商大数据平台案例

1.6 Hadoop概述和介绍

1.6.1 Hadoop发展历史和应用现状

1.6.2 Hadoop的特点

1.6.3 Hadoop的生态系统

第2章 Cloudera大数据平台介绍

2.1 Cloudera简介

2.2 Cloudera的Hadoop发行版CDH简介

2.2.1 CDH概述

2.2.2 CDH和Apache Hadoop对比

2.3 Cloudera Manager大数据管理平台介绍

2.3.1 Cloudera Manager概述和整体架构

2.3.2 Cloudera Manager的基本核心功能

2.3.3 Cloudera Manager的高级功能

2.4 Cloudera平台参考部署架构

2.4.1 Cloudera的软件体系结构

2.4.2 群集硬件规划配置

2.4.3 Hadoop集群角色分配

2.4.4 网络拓扑

第3章 Cloudera Manager及CDH离线安装部署

3.1 安装前的准备工作

3.2 Cloudera Manager及CDH安装

3.3 添加其他大数据组件

第4章 分布式文件系统HDFS

4.1 HDFS简介

4.2 HDFS体系结构

4.2.1 HDFS架构概述

4.2.2 HDFS命名空间管理

4.2.3 NameNode

4.2.4 SecondaryNameNode

4.3 HDFS 2.0新特性

4.3.1 HDFS HA

4.3.2 HDFS Federation

4.4 HDFS操作常用shell命令

4.4.1 HDFS目录操作和文件处理命令

4.4.2 HDFS的Web管理界面

4.4.3 dfsadmin管理维护命令

4.4.4 namenode命令

4.5 Java编程操作HDFS实践

4.6 HDFS的参数配置和规划

4.7 使用Cloudera Manager启用HDFS HA

4.7.1 HDFS HA高可用配置

4.7.2 HDFS HA高可用功能测试

第5章 分布式计算框架MapReduce

5.1 MapReduce概述

5.2 MapReduce原理介绍

5.2.1 工作流程概述

5.2.2 MapReduce框架的优势

5.2.3 MapReduce执行过程

5.3 MapReduce编程——单词示例解析

5.4 MapReduce应用开发

5.4.1 配置MapReduce开发环境

5.4.2 编写和运行MapReduce程序

第6章 资源管理调度框架YARN

6.1 YARN产生背景

6.2 YARN框架介绍

6.3 YARN工作原理

6.4 YARN框架和MapReduce1.0框架对比

6.5 CDH集群的YARN参数调整

第7章 数据仓库Hive

7.1 Hive简介

7.2 Hive体系架构和应用场景

7.2.1 Hive体系架构

7.2.2 Hive应用场景

7.3 Hive的数据模型

7.3.1 内部表

7.3.2 外部表

7.3.3 分区表

7.3.4 桶

7.4 Hive实战操作

7.4.1 Hive内部表操作

7.4.2 Hive外部表操作

7.4.3 Hive分区表操作

7.4.4 桶表

7.4.5 Hive应用实例WordCount

7.4.6 UDF

7.5 基于Hive的应用案例

第8章 数据迁移工具Sqoop

8.1 Sqoop概述

8.2 Sqoop工作原理

8.3 Sqoop版本和架构

8.4 Sqoop实战操作

第9章 分布式数据库HBase

9.1 HBase概述

9.2 HBase数据模型

9.3 HBase生态地位和系统架构

9.3.1 HBase的生态地位解析

9.3.2 HBase系统架构

9.4 HBase运行机制

9.4.1 Region

9.4.2 Region Server工作原理

9.4.3 Store工作原理

9.5 HBase操作实战

9.5.1 HBase常用shell命令

9.5.2 HBase编程实践

9.5.3 HBase参数调优的案例分享

第10章 分布式协调服务ZooKeeper

10.1 ZooKeeper的特点

10.2 ZooKeeper的工作原理

10.2.1 基本架构

10.2.2 ZooKeeper实现分布式Leader节点选举

10.2.3 ZooKeeper配置文件重点参数详解

10.3 ZooKeeper典型应用场景

10.3.1 ZooKeeper实现HDFS的NameNode高可用HA

10.3.2 ZooKeeper实现HBase的HMaster高可用

10.3.3 ZooKeeper在Storm集群中的协调者作用

第11章 准实时分析系统Impala

11.1 Impala概述

11.2 Impala组件构成

11.3 Impala系统架构

11.4 Impala的查询处理流程

11.5 Impala和Hive的关系和对比

11.6 Impala安装

11.7 Impala入门实战操作

第12章 日志采集工具Flume

12.1 Flume概述

12.2 Flume体系结构

12.2.1 Flume外部结构

12.2.2 Flume的Event事件概念

12.2.3 Flume的Agent

12.3 Flume安装和集成

12.3.1 搭建Flume环境

12.3.2 Kafka与Flume集成

12.4 Flume操作实例介绍

12.4.1 例子概述

12.4.2 第一步:配置数据流向

12.4.3 第二步:启动服务

12.4.4 第三步:新建空数据文件

12.4.5 第四步:运行flume-ng命令

12.4.6 第五步:运行命令脚本

12.4.7 最后一步:测试结果

第13章 分布式消息系统Kafka

13.1 Kafka架构设计

13.1.1 基本架构

13.1.2 基本概念

13.1.3 Kafka主要特点

13.2 Kafka原理解析

13.2.1 主要的设计理念

13.2.2 ZooKeeper在Kafka的作用

13.2.3 Kafka在ZooKeeper的执行流程

13.3 Kafka安装和部署

13.3.1 CDH5完美集成Kafka

13.3.2 Kafka部署模式和配置

13.4 Java操作Kafka消息处理实例

13.4.1 例子概述

13.4.2 第一步:新建工程

13.4.3 第二步:编写代码

13.4.4 第三步:运行发送数据程序

13.4.5 最后一步:运行接收数据程序

13.5 Kafka与HDFS的集成

13.5.1 与HDFS集成介绍

13.5.2 与HDFS集成实例

13.5.3 第一步:编写代码——发送数据

13.5.4 第二步:编写代码——接收数据

13.5.5 第三步:导出文件

13.5.6 第四步:上传文件

13.5.7 第五步:运行程序——发送数据

13.5.8 第六步:运行程序——接收数据

13.5.9 最后一步:查看执行结果

第14章 大数据ETL工具Kettle

14.1 ETL原理

14.1.1 ETL简介

14.1.2 ETL在数据仓库中的作用

14.2 Kettle简介

14.3 Kettle完整案例实战

14.3.1 案例介绍

14.3.2 最终效果

14.3.3 表说明

14.3.4 第一步:准备数据库数据

14.3.5 第二步:新建转换

14.3.6 第三步:新建数据库连接

14.3.7 第四步:拖动表输入组件

14.3.8 第五步:设置属性——order表

14.3.9 第六步:设置属性——user表

14.3.10 第七步:拖动流查询并设置属性——流查询

14.3.11 第八步:设置属性——product表

14.3.12 第九步:连接组件

14.3.13 第十步:设置属性——文本输出

14.3.14 最后一步:运行程序并查看结果

14.4 Kettle调度和命令

14.4.1 通过页面调度

14.4.2 通过脚本调度

14.5 Kettle使用原则

第15章 大规模数据处理计算引擎Spark

15.1 Spark简介

15.1.1 使用背景

15.1.2 Spark特点

15.2 Spark架构设计

15.2.1 Spark整体架构

15.2.2 关键运算组件

15.2.3 RDD介绍

15.2.4 RDD操作

15.2.5 RDD依赖关系

15.2.6 RDD源码详解

15.2.7 Scheduler

15.2.8 Storage

15.2.9 Shuffle

15.3 Spark编程实例

15.3.1 实例概述

15.3.2 第一步:编辑数据文件

15.3.3 第二步:编写程序

15.3.4 第三步:上传JAR文件

15.3.5 第四步:远程执行程序

15.3.6 最后一步:查看结果

15.4 Spark SQL实战

15.4.1 例子概述

15.4.2 第一步:编辑数据文件

15.4.3 第二步:编写代码

15.4.4 第三步:上传文件到服务器

15.4.5 第四步:远程执行程序

15.4.6 最后一步:查看结果

15.5 Spark Streaming实战

15.5.1 例子概述

15.5.2 第一步:编写代码

15.5.3 第二步:上传文件到服务器

15.5.4 第三步:远程执行程序

15.5.5 第四步:上传数据

15.5.6 最后一步:查看结果

15.6 Spark MLlib实战

15.6.1 例子步骤

15.6.2 第一步:编写代码

15.6.3 第二步:上传文件到服务器

15.6.4 第三步:远程执行程序

15.6.5 第四步:上传数据

15.6.6 最后一步:查看结果

第16章 大数据全栈式开发语言Python

16.1 Python简介

16.2 Python安装和配置

16.2.1 Anaconda介绍

16.2.2 Anaconda下载

16.2.3 Anaconda安装

16.2.4 Anaconda包管理

16.2.5 PyCharm下载

16.2.6 PyCharm安装

16.2.7 PyCharm使用

16.3 Python入门

16.3.1 例子概述

16.3.2 第一步:新建Python文件

16.3.3 第二步:设置字体大小

16.3.4 第三步:编写代码

16.3.5 第四步:执行程序

16.3.6 最后一步:改变输入

16.4 Python数据科学库pandas入门

16.4.1 例子概述

16.4.2 pandas包介绍

16.4.3 第一步:打开Jupyter Notebook

16.4.4 第二步:导入包

16.4.5 第三步:定义数据集

16.4.6 第四步:过滤数据

16.4.7 最后一步:获取数据

16.5 Python绘图库matplotlib入门

16.5.1 例子概述

16.5.2 第一步:新建一个Python文件

16.5.3 第二步:引入画图包

16.5.4 第三步:组织数据

16.5.5 第四步:画图

16.5.6 最后一步:查看结果

第17章 大数据实战案例:实时数据流处理项目

17.1 项目背景介绍

17.2 业务需求分析

17.3 项目技术架构

17.4 项目技术组成

17.5 项目实施步骤

17.5.1 第一步:运用Kafka产生数据

17.5.2 第二步:运用Spark接收数据

17.5.3 第三步:安装Redis软件

17.5.4 第四步:准备程序运行环境

17.5.5 第五步:远程执行Spark程序

17.5.6 第六步:编写Python实现可视化

17.5.7 最后一步:执行Python程序

17.6 项目总结

第18章 大数据实战案例:用户日志综合分析项目

18.1 项目背景介绍

18.2 项目设计目的

18.3 项目技术架构和组成

18.4 项目实施步骤

18.4.1 第一步:本地数据FTP到Linux环境

18.4.2 第二步:Linux数据上传到HDFS

18.4.3 第三步:使用Hive访问HDFS数据

18.4.4 第四步:使用Kettle把数据导入HBase

18.4.5 第五步:使用Sqoop把数据导入MySQL

18.4.6 第六步:编写Python程序实现可视化

18.4.7 最后一步:执行Python程序

ClouderaHadoop大数据平台实战指南是2019年由清华大学出版社出版,作者宋立桓。

得书感谢您对《ClouderaHadoop大数据平台实战指南》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
OpenStack云平台部署与高可用实战 电子书
OpenStack目前获得了很多大公司的广泛支持,不仅能够搭建私有云,而且也能够搭建公有云。全书主要内容包括:OpenStsck入门体验、OpenStsck常见模块详解、OpenStsck云平台管理、搭建OpenStsck多节点的企业私有云平台等。
HADOOP大数据开发实战 电子书
Hadoop基础教程,大数据技术原理与应用教程,MapReduce框架入门实战指南。
Calcite数据管理实战 电子书
Calcite数据库原理及应用教程,SQL大数据技术原理及应用,帮助你解决数据源管理难题。
图数据库实战 电子书
图数据库入门教程书籍,采用Gremlin语言,完整展示图应用程序的构建过程,从入门到实践学习图数据库。
新媒体平台运营实战从入门到精通 电子书
本书结构清晰,内容精炼,适合从事企业营销和新媒体营销的人员使用,可作为院校市场营销类、企业管理类、商务贸易类专业的课程教材。