Spark大数据实时计算：基于Scala开发实战

电子书

范东来

在数字经济时代，数据是重要的资源要素；同时，新的数据又在源源不断地产生，企业面临的一个基本问题就是如何管理和利用这些数据，这对传统的数据处理方法与分析框架提出了新的诉求和挑战，也是全球业界与学界为关心的问题。为了满足大数据时代对信息的快速处理的需求，一个分布式的开源计算框架Apache Spark应运而生。经过十年的发展，Spark已经成为目前大数据处理的标杆，在整个业界得到了广泛的使用。对大数据工程师来说，用Spark构建数据管道无疑是很好的选择，而对数据科学家来说，Spark也是高效的数据探索工具。本书基于Spark发行版2.4.4写作而成，包含大量的实例与一个完整项目，技术理论与实战相结合，层次分明，循序渐进。本书不仅介绍了如何开发Spark应用的基础内容，包括Spark架构、Spark编程、SparkSQL、Spark调优等，还探讨了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习、Alluxio系统等高级主题，同时完整实现了一个企业背景调查系统，借鉴了数据湖与Lambda架构的思想，涵盖了批处理、流处理应用开发，并加入了一些开源组件来满足业务需求。学习该系统可以使读者从实战中巩固所学，并将技术理论与应用实战融会贯通。本书适合准备学习Spark的开发人员和数据分析师，以及准备将Spark应用到实际项目中的开发人员和管理人员阅读，也适合计算机相关专业的高年级本科生和研究生学习和参考，对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

电子书

Spark编程基础（Scala版）

林子雨

本书是厦门大学作者团队长期经验总结的结晶，是在厦门大学《大数据技术原理与应用》入门级大数据教材的基础之上编写的。为了确保教程质量，在编著出版纸质教材之前，实验室已经于2016年10月通过实验室官网免费发布共享了简化版的Spark在线教程和相关教学资源，同时，该在线教程也已经用于厦门大学计算机科学系研究生的大数据课程教学，并成为全国高校大数据课程教师培训交流班的授课内容。实验室根据读者对在线Spark教程的大量反馈意见以及教学实践中发现的问题，对Spark在线教程进行了多次修正和完善，所有这些前期准备工作，都为纸质教材的编著出版打下了坚实的基础。披荆斩棘，在大数据丛林中开辟学习捷径填沟削坎，为快速学习Spark 技术铺平道路深入浅出，有效降低Spark 技术学习门槛资源全面，构建全方位一站式在线服务体系

电子书

基于Hadoop与Spark的大数据开发实战

肖睿丁科吴刚山

大数据技术让我们以一种前所未有的方式，对海量数据进行分析，从中获得有巨大价值的产品和服务，最终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解，主要内容包括Hadoop环境配置、Hadoop分布式文件系统（HDFS）、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数

电子书

大数据实训案例——电影推荐系统（Scala版）

林子雨

本书详细介绍了一个大数据应用案例——电影推荐系统（Scala版），案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程，涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Spring等系统和软件的安装与使用方法。案例采用的编程语言是Scala和Java。

电子书

大数据Hive离线计算开发实战

杨力

本书从数据处理平台数据库和数据仓库入手，帮助读者逐步搭建大数据Hive数据仓库平台，并介绍了这种传统数据分析方法在大数据平台成功应用的典型案例。本书通过对Hive数据定义语言、Hive数据操纵语言、Hive数据基本查询、Hive数据复杂查询的详细介绍，全面阐述了Hive大数据平台工具的应用与开发。另外，还介绍了Hive数据库对象、用户自定义函数以及Azkaban工作流作业调度器，帮助读者掌握Hiv

电子书

大数据实时流处理技术实战——基于Flink+Kafka技术

刘均主编

本书以项目实践作为主线，结合必需的理论知识，以任务的形式设计内容，每个任务都包含任务描述及任务实施的步骤，读者按照实施步骤进行操作就可以完成相应的学习任务，从而不断提升项目实践能力。本书主要内容涉及流式数据的基础知识、Flink的简介及发展历史、Flink的系统架构及FlinkAPI介绍、Flink的集群部署模式、Flink流式API的基本应用、Flink时间和窗口API的应用、Flink高级应用

电子书

大数据实训案例——电信用户行为分析（Scala版）

林子雨

本书详细介绍了一个大数据应用案例——电信用户行为分析，案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程，涵盖Linux、MySQL、Hadoop、Spark、IntelliJIDEA、Spring等系统和软件的安装与使用方法。案例采用的编程语言是Scala和Java。

得书 - 好书推荐、正版图书免费阅读

Spark大数据实时计算：基于Scala开发实战

杨力

编辑推荐

内容简介

章节目录

图解Spark：大数据快速分析实战

大数据技术原理与应用（第2版）

大数据技术基础——基于Hadoop与Spark

Kotlin入门与实战

数权法1.0：数权的理论基础