Flink大数据分析实战

Flink大数据分析实战

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书循序渐进地介绍了Flink生态系统主流的大数据开发技术。

内容简介

本书作为Flink的入门书,从Flink核心编程语言Scala讲起,涵盖当前Flink主流的开发组件。

以实操为主,深入讲解每一个操作步骤,包括DataSet API离线数据处理、Flink SQL快速结构化数据处理、DataStream实时数据处理,同时包括案例讲解、源码剖析、常用Shell命令和Scala API详解。

即使没有任何Flink基础的读者也可以对照书中的步骤成功搭建属于自己的Flink集群,是一本真正的实操指南书籍。

本书可作为大数据开发人员的随身手册,也可作为Flink新手入门的指导书籍,以及大数据从业者的参考用书。

作者简介

作者张伟洋,大数据领域资深专家,拥有多年互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。先后多次为中国海洋大学、曲阜师范大学、青岛理工大学等高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有深入的研究。已出版《Hadoop大数据技术开发实战》《Spark大数据分析实战》等图书,公众号 “奋斗在IT” 的创办人。

章节目录

版权信息

作者简介

内容简介

前言

第1章 初识Flink

1.1 大数据开发总体架构

1.2 什么是Flink

1.3 Flink的应用场景

1.4 流计算框架对比

1.5 Flink的主要组件

1.6 Flink编程模型

1.6.1 数据集

1.6.2 编程接口

1.6.3 程序结构

1.7 快速体验Flink程序

1.7.1 IntelliJ IDEA安装Scala插件

1.7.2 IntelliJ IDEA创建Flink项目

1.7.3 示例:批处理单词计数

1.7.4 示例:流处理单词计数

第2章 Flink运行架构及原理

2.1 Flink运行时架构

2.1.1 YARN集群架构

2.1.2 Flink Standalone架构

2.1.3 Flink On YARN的架构

2.2 Flink任务调度原理

2.2.1 任务链

2.2.2 并行度

2.2.3 共享Task Slot

2.2.4 数据流

2.2.5 执行图

2.2.6 执行计划

2.3 Flink数据分区

2.3.1 分区数量

2.3.2 分区策略

第3章 Flink安装及部署

3.1 Flink集群搭建

3.1.1 Flink本地模式搭建

3.1.2 Flink Standalone搭建

3.1.3 Flink On YARN搭建

3.2 Flink HA模式

3.2.1 Flink Standalone模式的HA架构

3.2.2 Flink Standalone模式HA集群搭建

3.2.3 Flink On YARN模式HA集群搭建

3.3 Flink命令行界面

3.4 Flink应用提交

3.5 Flink Shell的使用

第4章 Flink DataStream API

4.1 基本概念

4.2 执行模式

4.3 作业流程

4.4 程序结构

4.5 Source数据源

4.5.1 基本数据源

4.5.2 高级数据源

4.5.3 自定义数据源

4.6 Transformation数据转换

4.7 Sink数据输出

4.8 数据类型与序列化

4.9 分区策略

4.9.1 内置分区策略

4.9.2 自定义分区策略

4.10 窗口计算

4.10.1 事件时间

4.10.2 窗口分类

4.10.3 窗口函数

4.10.4 触发器

4.10.5 清除器

4.11 水印

4.11.1 计算规则

4.11.2 允许延迟与侧道输出

4.11.3 生成策略

4.12 状态管理

4.12.1 Keyed State

4.12.2 Operator State

4.13 容错机制

4.13.1 Checkpoint

4.13.2 Barrier

4.13.3 重启与故障恢复策略

4.13.4 Savepoint

4.14 案例分析:计算5秒内输入的单词数量

4.15 案例分析:统计5分钟内每个用户产生的日志数量

4.16 案例分析:统计24小时内每个用户的订单平均消费额

4.17 案例分析:计算5秒内每个信号灯通过的汽车数量

4.18 案例分析:Flink整合Kafka计算实时单词数量

4.19 案例分析:天猫双十一实时交易额统计

4.19.1 创建自定义数据源

4.19.2 计算各个分类的订单总额

4.19.3 计算全网销售总额与分类Top3

第5章 Flink Table API&SQL

5.1 基本概念

5.1.1 计划器

5.1.2 API架构

5.1.3 程序结构

5.2 动态表

5.2.1 流映射为动态表

5.2.2 连续查询

5.2.3 动态表转换为流

5.3 TableEnvironment API

5.3.1 基本概念

5.3.2 创建TableEnvironment

5.3.3 示例:简单订单统计

5.4 Table API

5.4.1 基本概念

5.4.2 示例:订单分组计数

5.4.3 示例:每小时订单分组求平均值

5.4.4 关系操作

5.5 SQL API

5.5.1 DDL操作

5.5.2 DML操作

5.5.3 DQL操作

5.5.4 窗口函数

5.5.5 窗口聚合

5.5.6 分组聚合

5.5.7 OVER聚合

5.5.8 连接查询

5.6 TopN查询

5.6.1 OVER子句

5.6.2 示例:计算产品类别销售额TopN

5.6.3 示例:搜索词热度统计

5.6.4 窗口TopN

5.7 Catalog元数据管理

5.8 Flink SQL整合Kafka

5.8.1 基本概念

5.8.2 示例:Flink SQL整合Kafka实现实时ETL

5.9 Flink SQL CLI

5.9.1 启动SQL CLI

5.9.2 执行SQL查询

5.9.3 可视化结果模式

5.10 Flink SQL整合Hive

5.10.1 整合步骤

5.10.2 Table API操作Hive

5.10.3 示例:Flink SQL整合Hive分析搜狗用户搜索日志

5.11 案例分析:Flink SQL实时单词计数

5.12 案例分析:Flink SQL实时计算5秒内用户订单总金额

5.13 案例分析:微博用户行为分析

5.13.1 离线与实时计算业务架构

5.13.2 Flume数据采集架构

5.13.3 Kafka消息队列架构

5.14 案例分析:Flink SQL智慧交通数据分析

5.14.1 项目介绍

5.14.2 数据准备

5.14.3 统计正常卡口数量

5.14.4 统计车流量排名前3的卡口号

5.14.5 统计每个卡口通过速度最快的前3辆车

5.14.6 车辆轨迹分析

第6章 Flink内核源码

6.1 流图

6.1.1 StreamGraph核心对象

6.1.2 StreamGraph生成过程

6.2 作业图

6.2.1 JobGraph的核心对象

6.2.2 JobGraph的生成过程

6.3 执行图

6.3.1 ExecutionGraph的核心对象

6.3.2 ExecutionGraph的生成过程

第7章 Gelly图计算

7.1 什么是Gelly

7.2 第一个Gelly程序

7.3 Gelly数据结构

7.4 如何使用Gelly

7.5 图操作

7.5.1 基本操作

7.5.2 属性操作

7.5.3 结构操作

7.5.4 连接操作

7.6 图常用API

7.6.1 创建图

7.6.2 图的转换

7.6.3 图的添加与移除

7.6.4 图的邻域方法

7.7 案例分析:Gelly计算社交网络中粉丝的平均年龄

Flink大数据分析实战是2022年由清华大学出版社出版,作者张伟洋 编著。

得书感谢您对《Flink大数据分析实战》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python大数据分析与挖掘实战(微课版) 电子书
本书以应用为导向,将理论与实践相结合,深入浅出地介绍了利用Python进行大数据分析与挖掘的基本知识,以及如何将其应用到具体领域的方法。本书分3篇:基础篇、案例篇和提高篇。基础篇(第1章-第6章)主要介绍Python基础知识及应用于科学计算、数据处理、数据可视化、机器学习、深度学习等方面的基础知识;案例篇(第7章-第11章)主要介绍利用Python进行金融、地理信息、交通、文本分析、图像识别等领域
大数据分析与挖掘 电子书
数据科学与大数据技术专业系列规划教材。强调概念+算法实践,让你“小数据”上会“算”,“大数据”上“算得快”。
大数据分析可视化 电子书
本书从大数据可视化的基本概念入手,介绍大数据的采集及预处理、大数据可视化的主要工具及使用相关工具进行可视化分析等方面的内容。《大数据分析可视化》共8章。第1章-第3章主要介绍大数据可视化的基本概念、相关工具和大数据采集及预处理,第4章-第6章主要介绍基本图形制作、极坐标系和平行坐标系下各类图形制作及基本三维图形与地图制作,第7章-第8章主要介绍机器学习可视化图形制作及进阶图形制作。
PySpark大数据分析与应用 电子书
本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例
大数据分析处理(慕课版) 电子书
统地阐述大数据分析处理工作流程中的重要步骤。