实战大数据:分布式大数据分析处理系统开发与应用

实战大数据:分布式大数据分析处理系统开发与应用

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

分布式系统开发与应用,适合技术人员与学生阅读。

内容简介

本书从大数据技术基础概念出发,介绍了大数据分析的流程和大数据分析处理系统的组成,以及大数据集群的搭建,并在此基础上讲解了多种不同技术构成的离线/实时数据分析系统实战项目。

全书共10章,包括大数据概述、大数据分析的基本流程与工具、分布式大数据分析处理系统概述、构建大数据集群环境、构建基于LayUI的集群管理系统、基于HBase的大数据离线分析系统、基于Hive+Hadoop+Spark的大数据离线分析系统、基于MySQL+Spark的大数据离线分析系统、基于Redis+Kafka+Spark的大数据实时分析系统、基于Flume+Kafka+Flink的大数据实时分析系统。

作者简介

编著者井超,大数据相关从业人员,著有《实战大数据》。

章节目录

版权信息

前言

第1章 大数据概述

1.1 大数据的基本概念

1.1.1 何谓大数据

1.1.2 大数据的产生阶段

1.1.3 大数据的核心技术和计算模式

1.2 大数据的应用

1.2.1 大数据的应用场景

1.2.2 大数据系统的作用

1.3 大数据技术生态圈

1.3.1 Linux操作系统

1.3.2 Hadoop生态系统

1.3.3 Spark对Hadoop的完善

1.4 大数据技术的新发展

1.4.1 Hadoop 3.0的新特性

1.4.2 大数据引擎Flink

1.4.3 智能化大数据分析处理

本章小结

第2章 大数据分析的基本流程与工具

2.1 数据采集

2.1.1 网络爬虫采集数据

2.1.2 使用Excel爬取数据

2.2 数据存储

2.2.1 关系型数据的存储——基于MySQL

2.2.2 非关系型数据的存储——基于Redis、HBase

2.3 数据分析与数据处理

2.3.1 数据分析常用工具——pandas

2.3.2 分布式计算框架

2.3.3 分布式数据挖掘和深度学习

2.4 数据可视化

2.4.1 Python数据可视化库Matplotlib

2.4.2 Python数据可视化库pyecharts

2.4.3 数据可视化图表库ECharts

2.4.4 数据可视化工具Apache Superset

本章小结

第3章 分布式大数据分析处理系统概述

3.1 什么是分布式大数据分析处理系统

3.2 分布式大数据分析处理系统的作用

3.3 分布式大数据分析处理系统的应用场景

3.4 分布式大数据分析处理系统的构成

3.4.1 数据采集子系统

3.4.2 数据存储系统

3.4.3 数据分析处理系统

3.4.4 数据可视化系统

3.5 分布式大数据分析处理系统的实现

3.5.1 系统前端——HTML、CSS、jQuery

3.5.2 系统后端——SpringBoot、SSM

3.5.3 Web服务器端——Tomcat

本章小结

第4章 构建大数据集群环境

4.1 部署大数据处理环境

4.1.1 搭建Hadoop集群

4.1.2 ZooKeeper的安装部署

4.1.3 Kafka的安装部署

4.1.4 Spark集群搭建

4.2 部署大数据存储环境

4.2.1 MySQL的安装部署

4.2.2 Hive的安装部署

4.2.3 HBase的安装部署

4.2.4 Redis的安装部署

本章小结

第5章 构建基于LayUI的集群管理系统

5.1 集群管理系统概述

5.1.1 需求分析

5.1.2 系统架构——系统+集群+UI

5.2 系统开发的前期准备操作

5.2.1 本机环境配置

5.2.2 集群环境配置

5.2.3 构建项目工程结构

5.3 系统的代码实现

5.3.1 Controller层实现

5.3.2 构造系统所需工具包

5.3.3 核心类实现

5.4 构造系统UI界面——基于LayUI

本章小结

第6章 基于HBase的大数据离线分析系统

6.1 系统架构概述

6.1.1 需求分析

6.1.2 系统架构——HBase+SpringBoot+ECharts

6.2 采集股份转让数据

6.2.1 使用爬虫抓取数据

6.2.2 数据采集模块测试

6.3 数据存储和处理模块实现

6.3.1 数据库设计

6.3.2 使用HBase存储并处理数据

6.3.3 数据存储和处理模块测试

6.4 数据可视化模块实现

6.4.1 数据可视化模块后端设计——基于SpringBoot

6.4.2 数据可视化模块前端设计——基于ECharts

6.4.3 数据可视化页面展示

本章小结

第7章 基于Hive+Hadoop+Spark的大数据离线分析系统

7.1 系统架构概述

7.1.1 需求分析

7.1.2 数据存储——Hive+Hadoop

7.1.3 数据处理与可视化——Spark+SSM+ECharts

7.2 采集旅游相关数据

7.2.1 使用爬虫采集城市、景点数据

7.2.2 数据采集模块测试

7.3 数据存储模块实现

7.3.1 数据库设计

7.3.2 使用HDFS和Hive存储数据

7.3.3 数据存储模块测试

7.4 数据分析处理模块实现

7.4.1 Spark处理数据

7.4.2 分词处理和情感分析——基于jieba+SnowNLP库

7.4.3 数据分析处理模块测试

7.5 数据可视化模块实现

7.5.1 数据可视化模块后端设计——基于SSM

7.5.2 数据可视化模块前端设计——基于ECharts

7.5.3 数据可视化页面展示

本章小结

第8章 基于MySQL+Spark的大数据离线分析系统

8.1 系统架构概述

8.1.1 需求分析

8.1.2 数据存储——MySQL

8.1.3 数据处理与可视化——Spark Streaming+Apache Superset

8.2 采集电商数据

8.2.1 使用爬虫爬取商品信息

8.2.2 数据采集模块测试

8.3 数据分析处理模块实现

8.3.1 数据库设计

8.3.2 Spark处理商品数据

8.3.3 数据分析处理模块测试

8.4 数据可视化模块实现

8.4.1 使用Apache Superset绘制数据可视化图表

8.4.2 数据可视化页面展示

本章小结

第9章 基于Redis+Kafka+Spark的大数据实时分析系统

9.1 系统架构概述

9.1.1 需求分析

9.1.2 数据存储——Redis

9.1.3 数据处理与可视化——Kafka+Spark Streaming+SSM+ECharts

9.2 采集汽车网站数据

9.2.1 使用爬虫获取汽车和用户数据

9.2.2 数据采集模块测试

9.3 数据存储模块实现

9.3.1 数据库设计

9.3.2 使用MySQL存储汽车数据

9.3.3 数据存储模块测试

9.4 数据分析处理模块实现

9.4.1 实时发送数据至Kafka

9.4.2 Spark处理汽车数据

9.4.3 Redis数据库存储处理结果

9.4.4 数据分析处理模块测试

9.5 数据可视化模块

9.5.1 数据可视化模块后端设计——基于SSM

9.5.2 数据可视化模块前端设计——基于ECharts

9.5.3 数据可视化页面展示

本章小结

第10章 基于Flume+Kafka+Flink的大数据实时分析系统

10.1 系统架构概述

10.1.1 需求分析

10.1.2 数据存储——MySQL

10.1.3 数据处理与可视化——Kafka+Flink+SpringBoot+ECharts

10.2 采集直播审计数据

10.2.1 模拟直播审计数据

10.2.2 使用Flume采集直播审计数据

10.2.3 数据采集模块测试

10.3 数据分析处理模块实现

10.3.1 实时发送数据至Kafka

10.3.2 Flink处理直播审计数据

10.3.3 MySQL数据库存储处理结果

10.3.4 数据分析处理模块测试

10.4 数据可视化模块

10.4.1 数据可视化模块后端设计——基于SpringBoot

10.4.2 数据可视化模块前端设计——基于ECharts

10.4.3 数据可视化页面展示

本章小结

实战大数据:分布式大数据分析处理系统开发与应用是2023年由机械工业出版社出版,作者井超 编著。

得书感谢您对《实战大数据:分布式大数据分析处理系统开发与应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
大数据分析可视化 电子书
本书从大数据可视化的基本概念入手,介绍大数据的采集及预处理、大数据可视化的主要工具及使用相关工具进行可视化分析等方面的内容。《大数据分析可视化》共8章。第1章-第3章主要介绍大数据可视化的基本概念、相关工具和大数据采集及预处理,第4章-第6章主要介绍基本图形制作、极坐标系和平行坐标系下各类图形制作及基本三维图形与地图制作,第7章-第8章主要介绍机器学习可视化图形制作及进阶图形制作。
PySpark大数据分析与应用 电子书
本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例
大数据开发项目实战 电子书
本书以项目案例为导向,贯穿讲解一个大数据的实战项目:广电大数据用户画像。全书共8章,具体内容包括大数据项目概述、Hadoop生态组件基础、广电大数据用户画像——需求分析、广电大数据用户画像——数据采集与预处理等。
HADOOP大数据开发实战 电子书
Hadoop基础教程,大数据技术原理与应用教程,MapReduce框架入门实战指南。
大数据分析处理(慕课版) 电子书
统地阐述大数据分析处理工作流程中的重要步骤。