Python大数据处理库PySpark实战

Python大数据处理库PySpark实战

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书是PySpark的入门教材,适合有一定Python基础的读者学习使用。

内容简介

我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛。本书适合有一定Python基础的读者学习使用。

本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。

作者简介

作者汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。

章节目录

版权信息

内容简介

前言

第1章 大数据时代

1.1 什么是大数据

1.1.1 大数据的特点

1.1.2 大数据的发展趋势

1.2 大数据下的分析工具

1.2.1 Hadoop

1.2.2 Hive

1.2.3 HBase

1.2.4 Apache Phoenix

1.2.5 Apache Drill

1.2.6 Apache Hudi

1.2.7 Apache Kylin

1.2.8 Apache Presto

1.2.9 ClickHouse

1.2.10 Apache Spark

1.2.11 Apache Flink

1.2.12 Apache Storm

1.2.13 Apache Druid

1.2.14 Apache Kafka

1.2.15 TensorFlow

1.2.16 PyTorch

1.2.17 Apache Superset

1.2.18 Elasticsearch

1.2.19 Jupyter Notebook

1.2.20 Apache Zeppelin

1.3 小结

第2章 大数据的瑞士军刀——Spark

2.1 Hadoop与生态系统

2.1.1 Hadoop概述

2.1.2 HDFS体系结构

2.1.3 Hadoop生态系统

2.2 Spark与Hadoop

2.2.1 Apache Spark概述

2.2.2 Spark和Hadoop比较

2.3 Spark核心概念

2.3.1 Spark软件栈

2.3.2 Spark运行架构

2.3.3 Spark部署模式

2.4 Spark基本操作

2.5 SQL in Spark

2.6 Spark与机器学习

2.6.1 决策树算法

2.6.2 贝叶斯算法

2.6.3 支持向量机算法

2.6.4 随机森林算法

2.6.5 人工神经网络算法

2.6.6 关联规则算法

2.6.7 线性回归算法

2.6.8 KNN算法

2.6.9 K-Means算法

2.7 小结

第3章 Spark实战环境设定

3.1 建立Spark环境前提

3.1.1 CentOS 7安装

3.1.2 FinalShell安装

3.1.3 PuTTY安装

3.1.4 JDK安装

3.1.5 Python安装

3.1.6 Visual Studio Code安装

3.1.7 PyCharm安装

3.2 一分钟建立Spark环境

3.2.1 Linux搭建Spark环境

3.2.2 Windows搭建Spark环境

3.3 建立Hadoop集群

3.3.1 CentOS配置

3.3.2 Hadoop伪分布模式安装

3.3.3 Hadoop完全分布模式安装

3.4 安装与配置Spark集群

3.5 安装与配置Hive

3.5.1 Hive安装

3.5.2 Hive与Spark集成

3.6 打造交互式Spark环境

3.6.1 Spark Shell

3.6.2 PySpark

3.6.3 Jupyter Notebook安装

3.7 小结

第4章 活用PySpark

4.1 Python语法复习

4.1.1 Python基础语法

4.1.2 Python变量类型

4.1.3 Python运算符

4.1.4 Python控制语句

4.1.5 Python函数

4.1.6 Python模块和包

4.1.7 Python面向对象

4.1.8 Python异常处理

4.1.9 Python JSON处理

4.1.10 Python日期处理

4.2 用PySpark建立第一个Spark RDD

4.2.1 PySpark Shell建立RDD

4.2.2 VSCode编程建立RDD

4.2.3 Jupyter编程建立RDD

4.3 RDD的操作与观察

4.3.1 first操作

4.3.2 max操作

4.3.3 sum操作

4.3.4 take操作

4.3.5 top操作

4.3.6 count操作

4.3.7 collect操作

4.3.8 collectAsMap操作

4.3.9 countByKey操作

4.3.10 countByValue操作

4.3.11 glom操作

4.3.12 coalesce操作

4.3.13 combineByKey操作

4.3.14 distinct操作

4.3.15 filter操作

4.3.16 flatMap操作

4.3.17 flatMapValues操作

4.3.18 fold操作

4.3.19 foldByKey操作

4.3.20 foreach操作

4.3.21 foreachPartition操作

4.3.22 map操作

4.3.23 mapPartitions操作

4.3.24 mapPartitionsWithIndex操作

4.3.25 mapValues操作

4.3.26 groupBy操作

4.3.27 groupByKey操作

4.3.28 keyBy操作

4.3.29 keys操作

4.3.30 zip操作

4.3.31 zipWithIndex操作

4.3.32 values操作

4.3.33 union操作

4.3.34 takeOrdered操作

4.3.35 takeSample操作

4.3.36 subtract操作

4.3.37 subtractByKey操作

4.3.38 stats操作

4.3.39 sortBy操作

4.3.40 sortByKey操作

4.3.41 sample操作

4.3.42 repartition操作

4.3.43 reduce操作

4.3.44 reduceByKey操作

4.3.45 randomSplit操作

4.3.46 lookup操作

4.3.47 join操作

4.3.48 intersection操作

4.3.49 fullOuterJoin操作

4.3.50 leftOuterJoin与rightOuterJoin操作

4.3.51 aggregate操作

4.3.52 aggregateByKey操作

4.3.53 cartesian操作

4.3.54 cache操作

4.3.55 saveAsTextFile操作

4.4 共享变数

4.4.1 广播变量

4.4.2 累加器

4.5 DataFrames与Spark SQL

4.5.1 DataFrame建立

4.5.2 Spark SQL基本用法

4.5.3 DataFrame基本操作

4.6 撰写第一个Spark程序

4.7 提交你的Spark程序

4.8 小结

第5章 PySpark ETL实战

5.1 认识资料单元格式

5.2 观察资料

5.3 选择、筛选与聚合

5.4 存储数据

5.5 Spark存储数据到SQL Server

5.6 小结

第6章 PySpark分布式机器学习

6.1 认识数据格式

6.2 描述统计

6.3 资料清理与变形

6.4 认识Pipeline

6.5 逻辑回归原理与应用

6.5.1 逻辑回归基本原理

6.5.2 逻辑回归应用示例:Titanic幸存者预测

6.6 决策树原理与应用

6.6.1 决策树基本原理

6.6.2 决策树应用示例:Titanic幸存者预测

6.7 小结

第7章 实战:PySpark+Kafka实时项目

7.1 Kafka和Flask环境搭建

7.2 代码实现

7.3 小结

Python大数据处理库PySpark实战是2021年由清华大学出版社出版,作者汪明。

得书感谢您对《Python大数据处理库PySpark实战》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
MySQL数据库管理实战 电子书
MySQL数据库管理从入门到实战,零基础读者上手MySQL的理想读物。
Python核心技术实战详解 电子书
1.内容讲解深入。 本书对Python的核心知识进行了深入剖析,循序渐进地讲解了核心功能模块的开发技术,帮助读者快速步入Python开发高手之列。 2.提供更为广泛的解决方案。 本书深入讲解了10个不同的主题模块,每一个主题涵盖了特定应用开发领域。在书中不仅给出了案例讲解,还包含了更多的拓展知识,能够帮助读者使用Python 开发各种类型的应用程序。 3.通过网站论坛形成互帮互学的朋友圈。 为了方便给读者答疑,特提供了网站论坛等支持,并且随时在线与读者互动,让大家在互学互帮中形成一个良好的学习编程的氛围。
Python深度学习与项目实战 电子书
本书基于Python以及两个深度学习框架Keras与TensorFlow,讲述深度学习在实际项目中的应用。本书共10章,首先介绍线性回归模型、逻辑回归模型、Softmax多分类器,然后讲述全连接神经网络、神经网络模型的优化、卷积神经网络、循环神经网络,最后讨论自编码模型、对抗生成网络、深度强化学习。
Spark海量数据处理:技术详解与平台实战 电子书
在数字经济时代,数据是重要的资源要素;同时,新的数据又在源源不断地产生,企业面临的一个基本问题就是如何管理和利用这些数据,这对传统的数据处理方法与分析框架提出了新的诉求和挑战,也是全球业界与学界为关心的问题。为了满足大数据时代对信息的快速处理的需求,一个分布式的开源计算框架Apache Spark应运而生。经过十年的发展,Spark已经成为目前大数据处理的标杆,在整个业界得到了广泛的使用。对大数据工程师来说,用Spark构建数据管道无疑是很好的选择,而对数据科学家来说,Spark也是高效的数据探索工具。 本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,技术理论与实战相结合,层次分明,循序渐进。本书不仅介绍了如何开发Spark应用的基础内容,包括Spark架构、Spark编程、SparkSQL、Spark调优等,还探讨了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习、Alluxio系统等高级主题,同时完整实现了一个企业背景调查系统,借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足业务需求。学习该系统可以使读者从实战中巩固所学,并将技术理论与应用实战融会贯通。 本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。
Python3快速入门与实战 电子书
理论与实战相结合,结合大量案例系统为你介绍Python。