深入理解Flink:实时大数据处理实践

深入理解Flink:实时大数据处理实践

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

《本书全面探讨流行Flink实时数据处理技术,理论与实践并举,值得从业者一读。

内容简介

本书介绍了当下最流行的实时数据处理引擎Flink,讲解了流处理API、批处理API、机器学习引擎FlinkML、关系型API、复杂事件处理FLinkCEP,以及指标度量与部署模式。此外,本书展开分析了流式数据处理理论中时间、窗口、水印、触发器、迟到生存期之间的关联关系;深入分析了多项式曲线拟合、分类算法SVM、推荐算法ALS-WR的理论和FlinkML实现。希望快速上手Flink以开展实时大数据处理与在线机器学习应用的从业者,本书是不二的选择:本书首先介绍相关概念引入的原因、解决方案的演进过程、Flink的对应架构、编程案例以及开放式的思考问题。

章节目录

封面

作者简介

版权页

前言

目录

第1章 流式数据架构理论

1.1 大数据处理架构演进历程

1.2 案例分析

1.2.1 SK电信驾驶安全性评分

1.2.2 流式机器学习应用

1.3 流式数据架构基本概念

1.3.1 流

1.3.2 时间

1.3.3 窗口

1.3.4 水印

1.3.5 触发器

1.3.6 数据处理模式

1.3.7 如何理解流式数据架构的内在机制

1.4 根据事件时间开滚动窗口

1.4.1 what:转换/where:窗口

1.4.2 when:水印

1.4.3 when:触发器

1.4.4 when:迟到生存期

1.4.5 how:累加模式

1.5 一致性

1.5.1 有状态计算

1.5.2 exactly-once语义

1.5.3 异步屏障快照

1.5.4 保存点

1.6 思考题

第2章 编程基础

2.1 Flink概述

2.2 让轮子转起来

2.2.1 本书约定

2.2.2 搭建单机版环境

2.2.3 配置IDEA

2.3 编程模型

2.3.1 分层组件栈

2.3.2 流式计算模型

2.3.3 流处理编程

2.4 运行时

2.4.1 运行时结构

2.4.2 任务调度

2.4.3 物理执行计划

2.5 思考题

第3章 流处理API

3.1 流处理API概述

3.2 时间处理

3.2.1 时间

3.2.2 水印

3.2.3 周期性水印生成器

3.2.4 间歇性水印生成器

3.2.5 递增式水印生成器

3.3 算子

3.3.1 算子函数

3.3.2 数据分区

3.3.3 资源共享

3.3.4 RichFunction

3.3.5 输出带外数据

3.4 窗口

3.4.1 窗口分类

3.4.2 窗口函数

3.4.3 触发器

3.4.4 清除器

3.4.5 迟到生存期

3.5 连接器

3.5.1 HDFS连接器

3.5.2 Kafka

3.5.3 异步I/O

3.6 状态管理

3.6.1 状态分类

3.6.2 托管的Keyed State

3.6.3 状态后端配置

3.7 检查点

3.8 思考题

第4章 批处理API

4.1 批处理API概述

4.1.1 程序结构

4.1.2 Source

4.1.3 Sink

4.1.4 连接器

4.2 算子

4.2.1 算子函数

4.2.2 广播变量

4.2.3 文件缓存

4.2.4 容错

4.3 迭代

4.3.1 深度神经网络训练

4.3.2 网络社团发现算法

4.3.3 Bulk Iteration

4.3.4 Delta Iteration的迭代形式

4.4 注解

4.4.1 直接转发

4.4.2 非直接转发

4.4.3 触达

4.5 思考题

第5章 机器学习引擎架构与应用编程

5.1 概述

5.1.1 数据加载

5.1.2 多项式曲线拟合的例子

5.2 流水线

5.2.1 机器学习面临的架构问题

5.2.2 Scikit-learn架构实践总结

5.2.3 FlinkML实现

5.3 深入分析多项式曲线拟合

5.3.1 数值计算的底层框架

5.3.2 向量

5.3.3 数据预处理

5.3.4 特征变换

5.3.5 线性拟合

5.4 分类算法

5.4.1 最优超平面

5.4.2 凸优化理论

5.4.3 求解最优超平面

5.4.4 核方法

5.4.5 软间隔

5.4.6 优化解法

5.4.7 SVM 的FlinkML实现

5.4.8 SVM的应用

5.5 推荐算法

5.5.1 推荐系统的分类

5.5.2 ALS-WR算法

5.5.3 FlinkML实现

5.5.4 ALS-WR的应用

5.6 思考题

第6章 关系型API

6.1 为什么需要关系型API

6.2 Calcite

6.3 关系型API概述

6.3.1 程序结构

6.3.2 Table运行时

6.3.3 表注册

6.3.4 TableSource与TableSink

6.3.5 查询

6.3.6 相互转换

6.4 动态表概述

6.4.1 流式关系代数

6.4.2 动态表

6.4.3 持续查询

6.5 思考题

第7章 复杂事件处理

7.1 什么是复杂事件处理

7.1.1 股票异常交易检测

7.1.2 重新审视DataStream 与Table API

7.2 复杂事件处理的自动机理论

7.2.1 有穷自动机模型NFA

7.2.2 NFAb模型

7.2.3 带版本号的共享缓存

7.3 FlinkCEP API

7.3.1 基本模式

7.3.2 模式拼合

7.3.3 模式分组

7.3.4 匹配输出

7.4 基于FlinkCEP的股票异常交易检测的实现

7.5 思考题

第8章 监控与部署

8.1 监控

8.1.1 度量指标

8.1.2 指标的作用域

8.1.3 监控配置

8.2 集群部署模式

8.2.1 Standalone

8.2.2 YARN

8.2.3 高可用

8.3 访问安全

8.4 思考题

参考资料

深入理解Flink:实时大数据处理实践是2019年由电子工业出版社出版,作者余海峰。

得书感谢您对《深入理解Flink:实时大数据处理实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
实战大数据(Hadoop+Spark+Flink)从平台构建到交互式数据分析(离线/实时) 电子书
面向大数据开发工程师,大数据运维工程师围绕Hadoop、Spark、Flink三大主流平台,详解大数据平台的搭建及数据分析(离线/实时)随书配备全套数据集、安装包、配置文件、海量教学视频(近30GB),方便学用
Flink入门与实战 电子书
深入浅出展现Flink技术精髓,力求详细而完整地描述Flink大数据项目实战,从零开始快速掌握Flink的基本原理和核心功能。
深入理解Spring Cloud与微服务构建(第2版) 电子书
作者在Spring Cloud中国社区具有很高的知名度,本书能为提升微服务架构能力带来帮助。
大数据处理平台 电子书
本书从数据查询、数据分析和迭代计算平台3个方面对大数据处理平台的体系结构、基本原理、主流技术、国内外研究进展和成果进行了全面、深入的阐述,对大数据实时处理平台的架构和核心技术进行了展望。企业技术人员可参考本书选择合适的技术构建大数据处理平台或对现有平台进行优化;高校院所的科研人员可参考本书了解大数据管理的基本原理和现有研究成果;学生读者可通过学习本书全面了解大数据处理平台。同时,本书也适用于对大数
Flink核心技术:源码剖析与特性开发 电子书
本书从设计思想和特性开发两个视角,对Flink框架进行介绍。