Spark最佳实践

Spark最佳实践

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

编辑推荐

腾讯专家首次分享Spark最新实践,基于真实数据,用案例分析全面解读大数据应用设计!

内容简介

本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍Spark SQL、Spark Streaming、Spark GraphX和Spark MLib功能模块。此外,本书详细介绍了常见的实战问题,比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本,更能为初学者提供很大帮助。

作者简介

作者林世飞,腾讯杰出研究员,2005年加入腾讯,先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解,热衷知识传播和分享,曾获腾讯学院2009年年度杰出讲师。目前,他就职于社交与效果广告部,负责广告系统相关的研发工作。

章节目录

版权信息

序一

序二

前言

第1章 Spark与大数据

1.1 大数据的发展及现状

1.1.1 大数据时代所面临的问题

1.1.2 谷歌的大数据解决方案

1.1.3 Hadoop生态系统

1.2 Spark应时而生

1.2.1 Spark的起源

1.2.2 Spark的特点

1.2.3 Spark的未来发展

第2章 Spark基础

2.1 Spark本地单机模式体验

2.1.1 安装虚拟机

2.1.2 安装JDK

2.1.3 下载Spark预编译包

2.1.4 本地体验Spark

2.2 高可用Spark分布式集群部署

2.2.1 集群总览

2.2.2 集群机器的型号选择

2.2.3 初始化集群机器环境

2.2.4 部署ZooKeeper集群

2.2.5 编译Spark

2.2.6 部署Spark Standalone集群

2.2.7 高可用Hadoop集群

2.2.8 让Spark运行在YARN上

2.2.9 一键部署高可用Hadoop + Spark集群

2.3 Spark编程指南

2.3.1 交互式编程

2.3.2 RDD创建

2.3.3 RDD操作

2.3.4 使用其他语言开发Spark程序

2.4 打包和提交

2.4.1 编译、链接、打包

2.4.2 提交

第3章 Spark工作机制

3.1 调度管理

3.1.1 集群概述及名词解释

3.1.2 Spark程序之间的调度

3.1.3 Spark程序内部的调度

3.2 内存管理

3.2.1 RDD持久化

3.2.2 共享变量

3.3 容错机制

3.3.1 容错体系概述

3.3.2 Master节点失效

3.3.3 Slave节点失效

3.4 监控管理

3.4.1 Web界面

3.4.2 REST API

3.4.3 Metrics指标体系

3.4.4 其他监控工具

3.5 Spark程序配置管理

3.5.1 Spark程序配置加载过程

3.5.2 环境变量配置

3.5.3 Spark属性项配置

3.5.4 查看当前的配置

3.5.5 配置Spark日志

第4章 Spark内核讲解

4.1 Spark核心数据结构RDD

4.1.1 RDD的定义

4.1.2 RDD的Transformation

4.1.3 RDD的Action

4.1.4 Shuffle

4.2 SparkContext

4.2.1 SparkConf配置

4.2.2 初始化过程

4.2.3 其他功能接口

4.3 DAG调度

4.3.1 DAGScheduler

4.3.2 TaskScheduler

第5章 Spark SQL与数据仓库

5.1 Spark SQL基础

5.1.1 分布式SQL引擎

5.1.2 支持的SQL语法

5.1.3 支持的数据类型

5.1.4 DataFrame

5.1.5 DataFrame数据源

5.1.6 性能调优

5.2 Spark SQL原理和运行机制

5.2.1 Spark SQL整体架构

5.2.2 Catalyst执行优化器

5.3 应用场景:基于淘宝数据建立电商数据仓库

5.3.1 电商数据仓库场景

5.3.2 数据准备和表设计

5.3.3 用Spark SQL来完成日常运营数据分析

5.3.4 Spark SQL在大规模数据下的性能表现

第6章 Spark流式计算

6.1 Spark Streaming基础知识

6.1.1 入门简单示例

6.1.2 基本概念

6.1.3 高级操作

6.2 深入理解Spark Streaming

6.2.1 DStream的两类操作

6.2.2 容错处理

6.2.3 性能调优

6.2.4 与Storm的对比

6.3 应用场景:一个类似百度统计的流式实时系统

6.3.1 Web log实时统计场景

6.3.2 日志实时采集

6.3.3 流式分析系统实现

第7章 Spark图计算

7.1 什么是图计算

7.1.1 图的基本概念

7.1.2 图计算的应用

7.2 Spark GraphX简介

7.2.1 GraphX实现

7.2.2 GraphX常用API介绍

7.3 应用场景:基于新浪微博数据的社交网络分析

7.3.1 社交网络分析的主要应用

7.3.2 社区发现算法简介

7.3.3 用GraphX实现Louvain算法

7.3.4 小试牛刀:谁是你的闺蜜

7.3.5 真实的场景:新浪微博关系分析

第8章 Spark MLlib

8.1 机器学习简介

8.1.1 什么是机器学习

8.1.2 机器学习示例

8.1.3 机器学习的基本方法

8.1.4 机器学习的常见技巧

8.1.5 机器学习参考资料

8.2 MLlib库简介

8.2.1 基础数据类型

8.2.2 主要的库

8.2.3 附带的示例程序

8.3 应用场景:搜索广告点击率预估系统

8.3.1 应用场景

8.3.2 逻辑回归

8.3.3 学习算法

8.3.4 模型评估

8.3.5 数据准备

8.3.6 模型训练

8.3.7 模型调优

附录 Scala语言参考

Spark最佳实践是2016年由人民邮电出版社·图灵出品出版,作者林世飞。

得书感谢您对《Spark最佳实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
大数据技术原理与应用(第3版) 电子书
本书系统介绍了大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。
数据分析实战:方法、工具与可视化 电子书
本书通过实战案例和可视化的图形讲解数据分析的知识。
实战大数据(Hadoop+Spark+Flink)从平台构建到交互式数据分析(离线/实时) 电子书
面向大数据开发工程师,大数据运维工程师围绕Hadoop、Spark、Flink三大主流平台,详解大数据平台的搭建及数据分析(离线/实时)随书配备全套数据集、安装包、配置文件、海量教学视频(近30GB),方便学用
大数据:精细化销售管理、数据分析与预测 电子书
本书适合营运部、财务部、商品企化部、销售管理部、销售及需要做产品分析和销售报表的相关工作人员阅读。
Spark海量数据处理:技术详解与平台实战 电子书
在数字经济时代,数据是重要的资源要素;同时,新的数据又在源源不断地产生,企业面临的一个基本问题就是如何管理和利用这些数据,这对传统的数据处理方法与分析框架提出了新的诉求和挑战,也是全球业界与学界为关心的问题。为了满足大数据时代对信息的快速处理的需求,一个分布式的开源计算框架Apache Spark应运而生。经过十年的发展,Spark已经成为目前大数据处理的标杆,在整个业界得到了广泛的使用。对大数据工程师来说,用Spark构建数据管道无疑是很好的选择,而对数据科学家来说,Spark也是高效的数据探索工具。 本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,技术理论与实战相结合,层次分明,循序渐进。本书不仅介绍了如何开发Spark应用的基础内容,包括Spark架构、Spark编程、SparkSQL、Spark调优等,还探讨了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习、Alluxio系统等高级主题,同时完整实现了一个企业背景调查系统,借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足业务需求。学习该系统可以使读者从实战中巩固所学,并将技术理论与应用实战融会贯通。 本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。