大数据Hadoop 3.X分布式处理实战

电子书

范东来

在数字经济时代，数据是重要的资源要素；同时，新的数据又在源源不断地产生，企业面临的一个基本问题就是如何管理和利用这些数据，这对传统的数据处理方法与分析框架提出了新的诉求和挑战，也是全球业界与学界为关心的问题。为了满足大数据时代对信息的快速处理的需求，一个分布式的开源计算框架Apache Spark应运而生。经过十年的发展，Spark已经成为目前大数据处理的标杆，在整个业界得到了广泛的使用。对大数据工程师来说，用Spark构建数据管道无疑是很好的选择，而对数据科学家来说，Spark也是高效的数据探索工具。本书基于Spark发行版2.4.4写作而成，包含大量的实例与一个完整项目，技术理论与实战相结合，层次分明，循序渐进。本书不仅介绍了如何开发Spark应用的基础内容，包括Spark架构、Spark编程、SparkSQL、Spark调优等，还探讨了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习、Alluxio系统等高级主题，同时完整实现了一个企业背景调查系统，借鉴了数据湖与Lambda架构的思想，涵盖了批处理、流处理应用开发，并加入了一些开源组件来满足业务需求。学习该系统可以使读者从实战中巩固所学，并将技术理论与应用实战融会贯通。本书适合准备学习Spark的开发人员和数据分析师，以及准备将Spark应用到实际项目中的开发人员和管理人员阅读，也适合计算机相关专业的高年级本科生和研究生学习和参考，对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

电子书

Hadoop数据仓库实战

肖睿兰伟廖春琼

本书以Hive为开发平台，主要介绍了如何使用HiveQL来查询和分析存储在Hadoop分布式文件系统上的大数据集合，具体内容包括Hive入门、Hive数据库及表操作、Hive元数据、Hive高级操作、Hive函数与Streaming、Hive视图与索引、Hive调优、Hive与HBase集成、数据迁移框架Sqoop等。本书介绍的每个任务都运用了大量案例，紧密结合实际应用，融入了含金量十足的开发经验

电子书

Spark分布式处理实战

刘均

本书以项目实践作为主线，结合必需的理论知识，以任务的形式进行内容设计，每个任务都包含任务描述及任务实施的步骤，读者按照实施步骤进行操作就可以完成相应的学习任务，从而不断提升项目实践能力。本书主要内容涉及Spark基本原理、基于IDEA搭建Spark开发环境、RDD基本原理、SparkSQL基本操作流程、电商业务系统的基本流程、电商用户行为分析的基本指标以及分析过程、通过不同的维度对销售数据进行分析

得书 - 好书推荐、正版图书免费阅读

大数据Hadoop 3.X分布式处理实战

吴章勇杨强

内容简介

章节目录

数据会说话：活用数据表达、说服与决策

大数据技术基础——基于Hadoop与Spark

Hadoop海量数据处理：技术详解与项目实战（第2版）

pandas数据处理与分析

Spark编程基础（Scala版）

大数据Hadoop 3.X分布式处理实战

吴章勇 杨强

内容简介

章节目录

数据会说话：活用数据表达、说服与决策

大数据技术基础——基于Hadoop与Spark

Hadoop海量数据处理：技术详解与项目实战（第2版）

pandas数据处理与分析

Spark编程基础（Scala版）

吴章勇杨强