Spark海量数据处理:技术详解与平台实战 电子书

Spark海量数据处理:技术详解与平台实战

编辑推荐

在数字经济时代,数据是重要的资源要素;同时,新的数据又在源源不断地产生,企业面临的一个基本问题就是如何管理和利用这些数据,这对传统的数据处理方法与分析框架提出了新的诉求和挑战,也是全球业界与学界为关心的问题。为了满足大数据时代对信息的快速处理的需求,一个分布式的开源计算框架Apache Spark应运而生。经过十年的发展,Spark已经成为目前大数据处理的标杆,在整个业界得到了广泛的使用。对大数据工程师来说,用Spark构建数据管道无疑是很好的选择,而对数据科学家来说,Spark也是高效的数据探索工具。

本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,技术理论与实战相结合,层次分明,循序渐进。本书不仅介绍了如何开发Spark应用的基础内容,包括Spark架构、Spark编程、SparkSQL、Spark调优等,还探讨了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习、Alluxio系统等高级主题,同时完整实现了一个企业背景调查系统,借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足业务需求。学习该系统可以使读者从实战中巩固所学,并将技术理论与应用实战融会贯通。

本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

内容简介

本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,层次分明,循序渐进。全书分为3部分,涵盖了技术理论与实战,读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS(伯克利数据分析栈),不仅介绍了如何开发Spark应用的基础内容,还介绍了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题,此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统,比较新颖的是,该系统借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足需求,既是对本书第一部分很好的巩固,又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。

本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

章节目录

展开全部

Spark海量数据处理:技术详解与平台实战是2019年由人民邮电出版社出版,作者范东来。

版权说明:本电子书已获得正版授权,由出版社通过知传链发行。
得书感谢您对《Spark海量数据处理:技术详解与平台实战》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
Spark编程基础(Scala版) 电子书

本书是厦门大学作者团队长期经验总结的结晶,是在厦门大学《大数据技术原理与应用》入门级大数据教材的基础之上编写的。为了确保教程质量,在编著出版纸质教材之前,实验室已经于2016年...
Spark快速大数据分析(第2版) 电子书

涵盖Spark3.0的新特性,着重展示如何利用机器学习算法执行大数据分析。
Spark快速大数据分析 电子书

本书从零开始讲解Spark。
大数据技术原理与应用(第2版) 电子书

国内高校大数据课程知名教师倾心之作,带你“零基础”学习大数据。
Hadoop3实战指南 电子书

基于全新的Hadoop3.x,主要分析Hadoop3.2.0的新特性和新功能,以企业级真实案例详细解读,带你全方位掌握大数据处理分析、分布式计算等。
pandas数据处理与分析 电子书

本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。