大数据技术基础——基于Hadoop与Spark

大数据技术基础——基于Hadoop与Spark

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

编辑推荐

将Hadoop和Spark组合起来进行剖析,呈现完整的大数据技术方案。

内容简介

本书主要内容包括:第 一章 大数据技术概述、第 二章 Hadoop平台的安装与配置、第三章 Hadoop分布式文件系统、第四章 HDFS API编程、第五章 Hadoop分布式计算框架、第六章 MapReduce API编程、第七章 MapReduce 编程、第八章 Spark概述、第九章 Spark Streaming编程、第十章 Spark SQL编程。

章节目录

版权信息

内容提要

前言

第1章 大数据技术概述

1.1 大数据技术的发展背景

1.2 大数据的概念、特征及意义

1.3 大数据的存储与计算模式

1.4 大数据的典型应用

1.5 初识Hadoop大数据平台

1.6 习题

第2章 Hadoop平台的安装与配置

2.1 安装准备

2.2 Hadoop的集群安装

2.3 Hadoop开发平台的安装

2.4 习题

2.5 实训

第3章 Hadoop分布式文件系统

3.1 HDFS概述

3.2 HDFS的体系结构

3.3 HDFS Shell操作

3.4 习题

3.5 实训

第4章 HDFS API编程

4.1 HDFS API概述

4.2 HDFS Java API客户端编程

4.3 HDFS应用举例——云盘系统的实现

4.4 习题

4.5 实训

第5章 Hadoop分布式计算框架

5.1 MapReduce概述

5.2 YARN运行机制

5.3 数据的混洗处理

5.4 作业的调度

5.5 任务的执行

5.6 失败处理机制

5.7 MapReduce示例演示——WordCount

5.8 习题

第6章 MapReduce API编程

6.1 MapReduce API概述

6.2 MapReduce的数据类型

6.3 MapReduce的输入

6.4 MapReduce的输出

6.5 MapReduce的任务

6.6 MapReduce应用举例——倒排索引

6.7 习题

6.8 实训

第7章 MapReduce 高级编程

7.1 自定义数据类型

7.2 自定义输入/输出

7.3 自定义Combiner/Partitioner

7.4 组合式计算作业

7.5 MapReduce的特性

7.6 MapReduce应用举例——成绩分析系统的实现

7.7 习题

7.8 实训

第8章 Spark概述

8.1 环境搭建

8.2 Spark简介

8.3 Spark大数据技术框架

8.4 Spark 2.0 使用体验

8.5 Spark的数据模型

8.6 Spark任务调度

8.7 习题

8.8 实训

第9章 Spark Streaming编程

9.1 Spark Streaming介绍

9.2 Spark Streaming工作机制

9.3 Spark的DStream流

9.4 Spark Streaming案例

9.5 集群处理与性能

9.6 习题

9.7 实训

第10章 Spark SQL编程

10.1 Spark SQL概述

10.2 DataFrame

10.3 数据源

10.4 Spark Streaming与Spark SQL综合案例

10.5 习题

10.6 实训

参考文献

大数据技术基础——基于Hadoop与Spark是2017年由人民邮电出版社出版,作者李瑶。

得书感谢您对《大数据技术基础——基于Hadoop与Spark》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
实战大数据(Hadoop+Spark+Flink)从平台构建到交互式数据分析(离线/实时) 电子书
面向大数据开发工程师,大数据运维工程师围绕Hadoop、Spark、Flink三大主流平台,详解大数据平台的搭建及数据分析(离线/实时)随书配备全套数据集、安装包、配置文件、海量教学视频(近30GB),方便学用
Spark编程基础(Scala版) 电子书
本书是厦门大学作者团队长期经验总结的结晶,是在厦门大学《大数据技术原理与应用》入门级大数据教材的基础之上编写的。为了确保教程质量,在编著出版纸质教材之前,实验室已经于2016年10月通过实验室官网免费发布共享了简化版的Spark在线教程和相关教学资源,同时,该在线教程也已经用于厦门大学计算机科学系研究生的大数据课程教学,并成为全国高校大数据课程教师培训交流班的授课内容。实验室根据读者对在线Spark教程的大量反馈意见以及教学实践中发现的问题,对Spark在线教程进行了多次修正和完善,所有这些前期准备工作,都为纸质教材的编著出版打下了坚实的基础。 披荆斩棘,在大数据丛林中开辟学习捷径 填沟削坎,为快速学习Spark 技术铺平道路 深入浅出,有效降低Spark 技术学习门槛 资源全面,构建全方位一站式在线服务体系
MySQL数据库基础与实践 电子书
本书从实用的角度出发,全面讲解MySQL数据库技术。
大数据技术原理与应用(第3版) 电子书
本书系统介绍了大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。
Hadoop3实战指南 电子书
基于全新的Hadoop 3.x,主要分析Hadoop 3.2.0的新特性和新功能,以企业级真实案例详细解读,带你全方位掌握大数据处理分析、分布式计算等。