类似推荐
编辑推荐
本书提供了详细的案例,涵盖常见的Hadoop应用架构,为读者提供有益指导。
内容简介
本书就使用Apache Hadoop端到端数据管理方案提供专业架构指导。其他书籍大多针对Hadoop生态系统中的软件,讲解较为单一的使用方法,而本书偏重实践,在架构的高度详细阐释诸多工具如何相互配合,搭建出打磨之后的完整应用。书中提供了诸多案例,易于理解,配有详细的代码解析,知识点一目了然。
作者简介
作者Mark Grover,Apache Sentry项目管理委员会成员,《Hive编程指南》作者之一,曾参与ApacheHadoop、Apache Hive、Apache Sqoop以及Apache Flume等项目,并为Apache Bigtop项目和Apache Sentry(项目孵化中)项目贡献代码。
章节目录
版权信息
版权声明
O'Reilly Media, Inc. 介绍
译者序
序
前言
第一部分 考虑 Hadoop 应用的架构设计
第 1 章 Hadoop 数据建模
1.1 数据存储选型
1.2 HDFS模式设计
1.3 HBase模式设计
1.4 元数据管理
1.5 结论
第 2 章 Hadoop 数据移动
2.1 数据采集考量
2.2 数据采集选择
2.3 数据导出
2.4 小结
第 3 章 Hadoop 数据处理
3.1 MapReduce
3.2 Spark
3.3 抽象层
3.4 Crunch
3.5 Cascading
3.6 Hive
3.7 Impala
3.8 小结
第 4 章 Hadoop 数据处理通用范式
4.1 模式一:依主键移除重复记录
4.2 模式二:数据开窗分析
4.3 模式三:基于时间序列的更新
4.4 小结
第 5 章 Hadoop 图处理
5.1 什么是图
5.2 什么是图处理
5.3 分布式系统中的图处理
5.4 Giraph
5.5 GraphX
5.6 工具选择
5.7 小结
第 6 章 协调调度
6.1 工作流协调调度的必要性
6.2 脚本的局限性
6.3 企业级任务调度器及Hadoop
6.4 Hadoop生态系统中的工作流框架
6.5 Oozie术语
6.6 Oozie概述
6.7 Oozie工作流
6.8 工作流范式
6.9 工作流参数化
6.10 Classpath定义
6.11 调度模式
6.12 执行工作流
6.13 小结
第 7 章 Hadoop 近实时处理
7.1 流处理
7.2 Apache Storm
7.3 Trident接口
7.4 Spark Streaming
7.5 Flume拦截器
7.6 工具选择
7.7 小结
第二部分 案例研究
第 8 章 点击流分析
8.1 用例场景定义
8.2 使用Hadoop进行点击流分析
8.3 设计概述
8.4 数据存储
8.5 数据采集
8.6 数据处理
8.7 数据分析
8.8 协调调度
8.9 小结
第 9 章 欺诈检测
9.1 持续改善
9.2 开始行动
9.4 用例介绍
9.4 用例介绍
9.5 架构设计
9.6 客户端架构
9.7 画像存储及访问
9.8 数据采集
9.9 近实时处理与探索性分析
9.10 近实时处理
9.11 探索性分析
9.12 其他架构对比
9.13 小结
第 10 章 数据仓库
10.1 使用Hadoop构建数据仓库
10.2 用例场景定义
10.3 OLTP模式
10.4 数据仓库:术语介绍
10.5 数据仓库的Hadoop实践
10.6 架构设计
10.7 小结
附录 A Impala 中的关联
A.1 广播式关联
A.2 分区后散列关联
作者简介
封面介绍
看完了
Hadoop应用架构是2017年由人民邮电出版社·图灵出品出版,作者[美]Mark Grover。
得书感谢您对《Hadoop应用架构》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。