大数据技术体系详解:原理、架构与实践

大数据技术体系详解:原理、架构与实践

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书适合大数据领域初学者,一本书读懂大数据。

内容简介

随着大数据技术的普及,它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学习大数据技术,这使得它已经成为程序员所需的基本技能。为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,包括《Hadoop权威指南》《Hadoop实战》等。尽管如此,面向初、中级学者,能够系统化、体系化介绍大数据技术的基础书籍并不多见。笔者曾接触过大量大数据初学者,他们一直渴望能有一本简单且易于理解的教科书式的大数据书籍出现。为了满足这些读者的需求,笔者根据自己多年的数据项目和培训经验,继《Hadoop技术内幕》书籍之后,于两年前开始尝试编写一本浅显易读的大数据基础书籍。

作者简介

作者董西成,硕士毕业于中国科学院计算技术研究所,之前就职于Hulu,是基础架构部门(包括大数据,VOD和AI架构三部分)负责人,现在就职于快手,从事数据工程相关研发工作。

章节目录

版权信息

前言

第一部分 概述篇

第1章 企业级大数据技术体系概述

1.1 大数据系统产生背景及应用场景

1.2 企业级大数据技术框架

1.3 企业级大数据技术实现方案

1.4 大数据架构:Lambda Architecture

1.5 Hadoop与Spark版本选择及安装部署

1.6 小结

1.7 本章问题

第二部分 数据收集篇

第2章 关系型数据的收集

2.1 Sqoop概述

2.2 Sqoop基本架构

2.3 Sqoop使用方式

2.4 数据增量收集CDC

2.5 小结

2.6 本章问题

第3章 非关系型数据的收集

3.1 概述

3.2 Flume NG基本架构

3.3 Flume NG数据流拓扑构建方法

3.4 小结

3.5 本章问题

第4章 分布式消息队列Kafka

4.1 概述

4.2 Kafka设计架构

4.3 Kafka程序设计

4.4 Kafka典型应用场景

4.5 小结

4.6 本章问题

第三部分 数据存储篇

第5章 数据序列化与文件存储格式

5.1 数据序列化的意义

5.2 数据序列化方案

5.3 文件存储格式剖析

5.4 小结

5.5 本章问题

第6章 分布式文件系统

6.1 背景

6.2 文件级别和块级别的分布式文件系统

6.3 HDFS基本架构

6.4 HDFS关键技术

6.5 HDFS访问方式

6.6 小结

6.7 本章问题

第7章 分布式结构化存储系统

7.1 背景

7.2 HBase数据模型

7.3 HBase基本架构

7.4 HBase访问方式

7.5 HBase应用案例

7.6 分布式列式存储系统Kudu

7.7 小结

7.8 本章问题

第四部分 分布式协调与资源管理篇

第8章 分布式协调服务ZooKeeper

8.1 分布式协调服务的存在意义

8.2 ZooKeeper数据模型

8.3 ZooKeeper基本架构

8.4 ZooKeeper程序设计

8.5 ZooKeeper应用案例

8.6 小结

8.7 本章问题

第9章 资源管理与调度系统YARN

9.1 YARN产生背景

9.2 YARN设计思想

9.3 YARN的基本架构与原理

9.4 YARN资源调度器

9.5 YARN资源隔离

9.6 以YARN为核心的生态系统

9.7 资源管理系统Mesos

9.8 资源管理系统架构演化

9.9 小结

9.10 本章问题

第五部分 大数据计算引擎篇

第10章 批处理引擎MapReduce

10.1 概述

10.2 MapReduce编程模型

10.3 MapReduce程序设计

10.4 MapReduce内部原理

10.5 MapReduce应用实例

10.6 小结

10.7 本章问题

第11章 DAG计算引擎Spark

11.1 概述

11.2 Spark编程模型

11.3 Spark运行模式

11.4 Spark程序设计实例

11.5 Spark内部原理

11.6 DataFrame、Dataset与SQL

11.7 Spark生态系统

11.8 小结

11.9 本章问题

第12章 交互式计算引擎

12.1 概述

12.2 ROLAP

12.3 MOLAP

12.4 小结

12.5 本章问题

第13章 流式实时计算引擎

13.1 概述

13.2 Storm基础与实战

13.3 Spark Streaming基础与实战

13.4 流式计算引擎对比

13.5 小结

13.6 本章问题

第六部分 数据分析篇

第14章 数据分析语言HQL与SQL

14.1 概述

14.2 Hive架构

14.3 Spark SQL架构

14.4 HQL

14.5 小结

14.6 本章问题

第15章 大数据统一编程模型

15.1 产生背景

15.2 Apache Beam基本构成

15.3 Apache Beam编程模型

15.4 Apache Beam流式计算模型

15.5 Apache Beam编程实例

15.6 小结

15.7 本章问题

第16章 大数据机器学习库

16.1 机器学习库简介

16.2 MLLib机器学习库

16.3 小结

16.4 本章问题

大数据技术体系详解:原理、架构与实践是2018年由机械工业出版社华章分社出版,作者董西成。

得书感谢您对《大数据技术体系详解:原理、架构与实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
现代水文质量管理体系构建与实践 电子书
结合水文行业质量管理现状和现代质量管理发展情况,对GB/T19001—2008/IS09001:2008《质量管理体系要求》进行解读;按照IS09001标准要求,对水文组织构建、完善和有效运行质量管理体系进行阐述,并提供了水文产品实现过程控制的实施指南,以及长江水利委员会水文局实施IS09001质量管理体系的案例。本书信息丰富,内容翔实,流程清晰,通俗易懂,可为水文组织贯彻实施IS09001标准要
中华医学影像技术学·影像设备结构与原理卷 电子书
以实用为目的,重点阐述医学影像设备的结构与工作原理。
Unity5.X3D游戏开发技术详解与典型案例 电子书
本书对Unity 3D集成开发环境界面、脚本的编写和众多高级特效的实现进行了详细介绍,内容深入浅出,是一本适合不同需求、不同开发水平读者的技术宝典。
现代核医学技术及相关原理 电子书
一部介绍现代核医学技术的医学专著。
数据产品经理高效学习手册:产品设计、技术常识与机器学习 电子书
详解产品设计思维框架和具体操作流程。