大数据处理框架ApacheSpark设计与实现

大数据处理框架ApacheSpark设计与实现

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

深入Spark底层,打通大数据处理“任督二脉”,让你能开发出性能更好、可靠性更高的大数据应用。

内容简介

近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。

本书分9章,主要包含四部分内容。第一部分,大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分,Spark大数据处理框架的核心理论(第3~4章):介绍Spark框架将应用程序转化为逻辑处理流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分,典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分,大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。

作者简介

作者许利杰,现任中国科学院软件研究所副研究员、硕士生导师,于中科院软件所获得博士学位。当前主要从事大数据系统方面的研究工作。

章节目录

版权信息

内容简介

前言

读者服务

第一部分 大数据处理框架的基础知识

第1章 大数据处理框架概览

1.1 大数据及其带来的挑战

1.2 大数据处理框架

1.3 大数据应用及编程模型

1.4 大数据处理框架的四层结构

1.5 错误容忍机制

1.6 其他大数据处理框架

1.7 本章小结

1.8 扩展阅读

第2章 Spark系统部署与应用运行的基本流程

2.1 Spark安装部署

2.2 Spark系统架构

2.3 Spark应用例子

2.4 Spark编程模型

2.5 本章小结

第二部分 Spark大数据处理框架的核心理论

第3章 Spark逻辑处理流程

3.1 Spark逻辑处理流程概览

3.2 Spark逻辑处理流程生成方法

3.3 常用transformation()数据操作

3.4 常用action()数据操作

3.5 对比MapReduce,Spark的优缺点

3.6 本章小结

3.7 扩展阅读

第4章 Spark物理执行计划

4.1 Spark物理执行计划概览

4.2 Spark物理执行计划生成方法

4.3 常用数据操作生成的物理执行计划

4.4 本章小结

4.5 扩展阅读

第三部分 典型的Spark应用

第5章 迭代型Spark应用

5.1 迭代型Spark应用的分类及特点

5.2 迭代型机器学习应用SparkLR

5.3 迭代型机器学习应用——广义线性模型

5.4 迭代型图计算应用——PageRank

5.5 本章小结

第四部分 大数据处理框架性能和可靠性保障机制

第6章 Shuffle机制

6.1 Shuffle的意义及设计挑战

6.2 Shuffle的设计思想

6.3 Spark中Shuffle框架的设计

6.4 支持高效聚合和排序的数据结构

6.5 与Hadoop MapReduce的Shuffle机制对比

6.6 本章小结

第7章 数据缓存机制

7.1 数据缓存的意义

7.2 数据缓存机制的设计原理

7.3 与Hadoop MapReduce的缓存机制进行对比

7.4 本章小结

第8章 错误容忍机制

8.1 错误容忍机制的意义及挑战

8.2 错误容忍机制的设计思想

8.3 重新计算机制

8.4 checkpoint机制的设计与实现

8.5 checkpoint与数据缓存的区别

8.6 本章小结

第9章 内存管理机制

9.1 内存管理机制问题及挑战

9.2 应用内存消耗来源及影响因素

9.3 Spark框架内存管理模型

9.4 Spark框架执行内存消耗与管理

9.5 数据缓存空间管理

9.6 本章小结

大数据处理框架ApacheSpark设计与实现是2020年由电子工业出版社出版,作者许利杰。

得书感谢您对《大数据处理框架ApacheSpark设计与实现》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
物联网方案设计与实现 电子书
物联网专业课程:系统原理、设计实现与应用掌握
框架式地道桥设计理论与应用 电子书
朱尔玉、王恒栋、谢玲著的《框架式地道桥设计理论与应用》主要讲述框架式地道桥的设计理论、分析计算方法及其应用,在本书的后半部分也兼顾了地道桥顶进施工的主要内容和过程。全书共分为15章,第1章到第8章为设计部分,详细阐述了框架式地道桥设计的基本理论、分析计算方法和进行预应力设计的过程,结合具体工程给出了计算算例,介绍了相关的地道桥设计软件系统,并通过实例进行了分析和验证。第9章到第15章为施工部分,对
智能可穿戴设备的设计与实现 电子书
本书以智能可穿戴设备开发平台为依托,并结合编者的实际开发经验编写而成,内容包括:可穿戴设备的现状、平台简介和实验说明;IAR-EWARM软件的安装和使用方法,用AndroidStudio开发软件开发可穿戴设备APP;Android入门基础知识;编程实现让APP通过蓝牙和设备进行通信;可穿戴设备模块综合设计。  本书结构清晰,讲解细致,注重学生实践能力的培养。通过学习,读者可对智能可穿戴设备的设计与
JavaScript框架设计(第2版) 电子书
全面讲解了JavaScript框架设计及相关的知识。
Python数据处理与挖掘 电子书
本书以构建完整的知识体系为目标,按照从简单到复杂的思路,贯穿了数据处理与挖掘的各个环节,具体包括:Python快速入门、Python数据类型、Python常用模块、Python数据获取、Python数据挖掘基础、Python数据挖掘算法、Python大数据挖掘和Python数据可视化。此外,针对各知识点,全书均设计了相应的Python案例,并给出了实现代码、效果图以及相应的解释,以强化读者对各知识