Spark大数据处理与分析

Spark大数据处理与分析

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

Spark入门基础书籍-学编程概念与实际开发

内容简介

本书是Spark技术入门的基础类书籍,通过本书的学习实验可以牢固掌握Spark编程技术的基本概念、原理和编程方法,能够进行应用程序的实际开发。

章节目录

封面页

书名页

版权页

内容简介

前言

目录

第1章 Spark生态环境

1.1 平台设计

1.2 Spark简介

1.2.1 技术特性

1.2.2 数据格式

1.2.3 编程语言

1.3 虚拟环境

1.3.1 发展历史

1.3.2 技术特征

1.3.3 技术架构

1.3.4 管理命令

1.4 HBase技术

1.4.1 系统架构

1.4.2 存储机制

1.4.3 常用命令

1.5 环境部署

1.6 小结

第2章 理解Spark

2.1 数据处理

2.1.1 MapReduce

2.1.2 工作机制

2.2 认识RDD

2.3 操作RDD

2.3.1 转换

2.3.2 动作

2.4 Scala编程

2.4.1 面向对象编程

2.4.2 函数式编程

2.4.3 集合类

2.5 案例分析

2.5.1 启动交换界面

2.5.2 SparkContext和SparkSession

2.5.3 加载数据

2.5.4 应用操作

2.5.5 缓存处理

2.6 小结

第3章 键值对与分区

3.1 键值对RDD

3.1.1 创建

3.1.2 转换

3.1.3 动作

3.2 分区和洗牌

3.2.1 分区

3.2.2 洗牌

3.3 共享变量

3.3.1 广播变量

3.3.2 累加器

3.4 Scala高级语法

3.4.1 高阶函数

3.4.2 泛型类

3.4.3 隐式转换

3.5 案例分析

3.5.1 检查事件数据

3.5.2 reduceByKey和groupByKey

3.5.3 三种连接转换

3.5.4 执行几个动作

3.5.5 跨节点分区

3.6 小结

第4章 关系型数据处理

4.1 Spark SQL概述

4.1.1 CataIyst优化器

4.1.2 DataFrame与DataSet

4.1.3 创建结构化数据

4.2 结构化数据操作

4.2.1 选取列

4.2.2 选择语句(seIect、seIectExpr)

4.2.3 操作列(withCoIumn、withCoIumnRenamed、drop)

4.2.4 条件语句(where、fiIter)

4.2.5 去除重复(distinct、dropDupIicates)

4.2.6 排序语句(sort、orderBy)

4.2.7 操作多表(union、join)

4.2.8 聚合操作

4.2.9 用户定义函数

4.3 案例分析

4.3.1 创建DataFrame

4.3.2 操作DataFrame

4.3.3 按年份组合

4.4 小结

第5章 数据流的操作

5.1 处理范例

5.1.1 至少一次

5.1.2 最多一次

5.1.3 恰好一次

5.2 理解时间

5.3 离散化流

5.3.1 一个例子

5.3.2 StreamingContext

5.3.3 输入流

5.4 离散流的操作

5.4.1 基本操作

5.4.2 transform

5.4.3 连接操作

5.4.4 SQL操作

5.4.5 输出操作

5.4.6 窗口操作

5.4.7 有状态转换

5.5 结构化流

5.5.1 一个例子

5.5.2 工作机制

5.5.3 窗口操作

5.6 案例分析

5.6.1 探索数据

5.6.2 创建数据流

5.6.3 转换操作

5.6.4 窗口操作

5.7 小结

第6章 分布式的图处理

6.1 理解图的概念

6.2 图并行系统

6.3 一个例子

6.4 创建和探索图

6.4.1 属性图

6.4.2 构建器

6.4.3 创建图

6.4.4 探索图

6.5 图运算符

6.5.1 属性运算符

6.5.2 结构运算符

6.5.3 联结运算符

6.5.4 点和边操作

6.5.5 收集相邻信息

6.6 Pregel

6.6.1 一个例子

6.6.2 PregeI运算符

6.6.3 标签传播算法

6.6.4 PageRank算法

6.7 案例分析

6.7.1 定义点

6.7.2 定义边

6.7.3 创建图

6.7.4 PageRank

6.7.5 PregeI

6.8 小结

第7章 机器学习

7.1 MLlib

7.2 数据类型

7.2.1 局部向量

7.2.2 标签向量

7.2.3 局部矩阵

7.2.4 分布矩阵

7.3 统计基础

7.3.1 相关分析

7.3.2 假设检验

7.3.3 摘要统计

7.4 算法概述

7.4.1 有监督学习

7.4.2 无监督学习

7.4.3 多种算法介绍

7.4.4 协同过滤

7.5 交叉验证

7.6 机器学习管道

7.6.1 概念介绍

7.6.2 Spark管道

7.6.3 模型选择

7.7 实例分析

7.7.1 预测用户偏好

7.7.2 分析飞行延误

7.8 小结

第8章 特征工程

8.1 特征提取

8.1.1 TF-IDF

8.1.2 Word2Vec

8.1.3 CountVectorizer

8.2 特征转换

8.2.1 Tokenizer

8.2.2 StopWordsRemover

8.2.3 n-gram

8.2.4 Binarizer

8.2.5 PCA

8.2.6 PoIynomiaIExpansion

8.2.7 Discrete Cosine Transform

8.2.8 StringIndexer

8.2.9 IndexToString

8.2.10 OneHotEncoder

8.2.11 VectorIndexer

8.2.12 Interaction

8.2.13 NormaIizer

8.2.14 StandardScaIer

8.2.15 MinMaxScaIer

8.2.16 MaxAbsScaIer

8.2.17 Bucketizer

8.2.18 EIementwiseProduct

8.2.19 SQLTransformer

8.2.20 VectorAssembIer

8.2.21 QuantiIeDiscretizer

8.2.22 Imputer

8.3 特征选择

8.3.1 VectorSIicer

8.3.2 RFormuIa

8.3.3 ChiSqSeIector

8.4 局部敏感哈希

8.4.1 局部敏感哈希操作

8.4.2 局部敏感哈希算法

8.5 小结

第9章 算法汇总

9.1 决策树和集成树

9.1.1 决策树

9.1.2 集成树

9.2 分类和回归

9.2.1 线性方法

9.2.2 分类

9.2.3 回归

9.3 聚集

9.3.1 K均值

9.3.2 潜在狄利克雷分配

9.3.3 二分K均值

9.3.4 高斯混合模型

9.4 小结

第10章 Spark应用程序

10.1 SparkContext与SparkSession

10.2 构建应用

10.3 部署应用

10.3.1 集群架构

10.3.2 集群管理

10.4 小结

第11章 监视和优化

11.1 工作原理

11.1.1 依赖关系

11.1.2 划分阶段

11.1.3 实例分析

11.2 洗牌机制

11.3 内存管理

11.4 优化策略

11.4.1 数据序列化

11.4.2 内存调优

11.4.3 其他方面

11.5 最佳实践

11.5.1 系统配置

11.5.2 程序调优

11.6 案例分析

11.6.1 执行模型

11.6.2 监控界面

11.6.3 调试优化

11.7 小结

参考文献

Spark大数据处理与分析是2020年由清华大学出版社出版,作者雷擎。

得书感谢您对《Spark大数据处理与分析》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Excel 2010数据处理与分析立体化教程 电子书
本书主要讲解使用Excel2010进行数据处理与分析的知识,内容主要包括输入与编辑数据、使用公式计算数据、使用函数计算数据,文本处理函数,时间与日期函数,查找与引用函数,数学与三角函数,财务分析函数,逻辑函数,使用图表显示数据,数据排序、筛选与分类汇总,数据透视表与数据透视图,自动化处理分析数据。
Excel2016数据处理与分析:微课版 电子书
汇集使用Excel进行数据处理与分析时最常见的问题需求,帮助你灵活有效地使用Excel来处理问题。
Excel 2016数据处理与分析应用教程(微课版) 电子书
本书分为10章,内容包括Excel2016基础知识、工作表输入与编辑、公式、函数、图表、数据管理、数据透视分析、宏与VBA编程、财务分析函数应用、模拟分析与规划求解。全书采用由易到难、循序渐进的方式介绍了Excel常用的知识点,并通过大量的实例帮助读者理解和掌握所学内容。本书内容详实、实例丰富、操作步骤清晰、实用性强。本书可以作为高等院校相关专业的教学用书,也可以作为企事业单位人员提高数据分析能力
Excel商务数据处理与分析(微课版 第2版) 电子书
本书主要讲解商务数据的处理与分析,深入浅出地介绍了使用Excel编辑、分析和管理商务数据的方法,帮助读者快速、高效地完成商务数据的处理与分析工作。全书共11章:第1章主要介绍商务数据分析的基础知识;第2~5章主要介绍编辑与处理数据的方法;第6~11章主要介绍实际工作中不同类型数据的分析方法,并对Excel的常用函数、公式和数据分析工具等进行详细讲解。本书内容翔实、结构清晰、图文并茂,通过实际工作中
Excel财务数据处理与分析实战技巧精粹 电子书
一本拿来解决实际问题的财务工作者案头书。