Hadoop应用架构

Hadoop应用架构

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书提供了详细的案例,涵盖常见的Hadoop应用架构,为读者提供有益指导。

内容简介

本书就使用Apache Hadoop端到端数据管理方案提供专业架构指导。其他书籍大多针对Hadoop生态系统中的软件,讲解较为单一的使用方法,而本书偏重实践,在架构的高度详细阐释诸多工具如何相互配合,搭建出打磨之后的完整应用。书中提供了诸多案例,易于理解,配有详细的代码解析,知识点一目了然。

作者简介

作者Mark Grover,Apache Sentry项目管理委员会成员,《Hive编程指南》作者之一,曾参与ApacheHadoop、Apache Hive、Apache Sqoop以及Apache Flume等项目,并为Apache Bigtop项目和Apache Sentry(项目孵化中)项目贡献代码。

章节目录

版权信息

版权声明

O'Reilly Media, Inc. 介绍

译者序

前言

第一部分 考虑 Hadoop 应用的架构设计

第 1 章 Hadoop 数据建模

1.1 数据存储选型

1.2 HDFS模式设计

1.3 HBase模式设计

1.4 元数据管理

1.5 结论

第 2 章 Hadoop 数据移动

2.1 数据采集考量

2.2 数据采集选择

2.3 数据导出

2.4 小结

第 3 章 Hadoop 数据处理

3.1 MapReduce

3.2 Spark

3.3 抽象层

3.4 Crunch

3.5 Cascading

3.6 Hive

3.7 Impala

3.8 小结

第 4 章 Hadoop 数据处理通用范式

4.1 模式一:依主键移除重复记录

4.2 模式二:数据开窗分析

4.3 模式三:基于时间序列的更新

4.4 小结

第 5 章 Hadoop 图处理

5.1 什么是图

5.2 什么是图处理

5.3 分布式系统中的图处理

5.4 Giraph

5.5 GraphX

5.6 工具选择

5.7 小结

第 6 章 协调调度

6.1 工作流协调调度的必要性

6.2 脚本的局限性

6.3 企业级任务调度器及Hadoop

6.4 Hadoop生态系统中的工作流框架

6.5 Oozie术语

6.6 Oozie概述

6.7 Oozie工作流

6.8 工作流范式

6.9 工作流参数化

6.10 Classpath定义

6.11 调度模式

6.12 执行工作流

6.13 小结

第 7 章 Hadoop 近实时处理

7.1 流处理

7.2 Apache Storm

7.3 Trident接口

7.4 Spark Streaming

7.5 Flume拦截器

7.6 工具选择

7.7 小结

第二部分 案例研究

第 8 章 点击流分析

8.1 用例场景定义

8.2 使用Hadoop进行点击流分析

8.3 设计概述

8.4 数据存储

8.5 数据采集

8.6 数据处理

8.7 数据分析

8.8 协调调度

8.9 小结

第 9 章 欺诈检测

9.1 持续改善

9.2 开始行动

9.4 用例介绍

9.4 用例介绍

9.5 架构设计

9.6 客户端架构

9.7 画像存储及访问

9.8 数据采集

9.9 近实时处理与探索性分析

9.10 近实时处理

9.11 探索性分析

9.12 其他架构对比

9.13 小结

第 10 章 数据仓库

10.1 使用Hadoop构建数据仓库

10.2 用例场景定义

10.3 OLTP模式

10.4 数据仓库:术语介绍

10.5 数据仓库的Hadoop实践

10.6 架构设计

10.7 小结

附录 A Impala 中的关联

A.1 广播式关联

A.2 分区后散列关联

作者简介

封面介绍

看完了

Hadoop应用架构是2017年由人民邮电出版社·图灵出品出版,作者[美]Mark Grover。

得书感谢您对《Hadoop应用架构》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
大数据处理技术基础与应用(Hadoop+Spark) 电子书
本书是一本介绍大数据处理技术的专业图书,力求提高读者对大数据处理的认知水平和动手能力。本书首先介绍大数据技术的相关概念和发展历程,从实践的角度介绍Hadoop和Spark的安装部署、编程基础和使用方法;然后结合具体案例,重点介绍SparkRDD、SparkSQL、SparkStreaming、SparkGraphFrame等的应用思路和方法,并通过具体代码,让读者更好地感受大数据处理技术的效果。本
Hadoop3实战指南 电子书
基于全新的Hadoop 3.x,主要分析Hadoop 3.2.0的新特性和新功能,以企业级真实案例详细解读,带你全方位掌握大数据处理分析、分布式计算等。
HADOOP大数据开发实战 电子书
Hadoop基础教程,大数据技术原理与应用教程,MapReduce框架入门实战指南。
Hadoop数据仓库实战 电子书
本书以Hive为开发平台,主要介绍了如何使用HiveQL来查询和分析存储在Hadoop分布式文件系统上的大数据集合,具体内容包括Hive入门、Hive数据库及表操作、Hive元数据、Hive高级操作、Hive函数与Streaming、Hive视图与索引、Hive调优、Hive与HBase集成、数据迁移框架Sqoop等。本书介绍的每个任务都运用了大量案例,紧密结合实际应用,融入了含金量十足的开发经验
Hadoop大数据开发基础 电子书
本书以任务为导向,较为全面地介绍了Hadoop大数据技术的相关知识。全书共6章,具体内容包括Hadoop介绍、Hadoop集群的搭建及配置、Hadoop基础操作、MapReduce编程入门、MapReduce进阶编程、项目案例:电影网站用户性别预测。本书的第2~5章包含了实训与课后练习,通过练习和操作实践,帮助读者巩固所学的内容。本书可以作为高校大数据技术类专业的教材,也可作为大数据技术爱好者的自