编辑推荐
本书深入研究大数据平台异常检测与分析,构建离线与实时方法体系,并提出推测式任务调度算法。
内容简介
本书在介绍相关研究工作及基础之后,主要针对大数据平台的访问日志研究平台异常的检测与分析问题。构建大数据平台异常的离线检测与分析的方法体系,研究概念漂移的二重检测机制、分布式日志的最大频繁序列模式、基于最大频繁模式的动态规则库构建方法、基于聚类分析K-Means算法、Canopy算法、CMBK算法)的离线异常检测算法,提出基于最大信息系数的在线异常检测方法、基于贝叶斯粒子群的异常检测方法;构建大数据平台异常的实时检测与分析方法体系,研究基于Web会话流的分布式实时异常定位方法、基于会话特征相似性模糊聚类的异常检测算法、基于相邻请求的动态时间阈值会话识别算法;研究平台异常时运行维护的推测式任务调度策略并提出基于实时负载的推测式任务调度算法;从大数据技术与组件技术选型入手,针对大数据平台异常检测分析系统进行深入的结构分析、构建一种称为融合框架的RADA系统,比较系统地介绍大数据平台异常的实时检测与分析系统的系统研发实现的关键技术。
章节目录
封面
书名页
内容简介
版权页
前言
目录
第1章 绪论
1.1 大数据平台异常检测分析研究的背景与意义
1.2 大数据平台异常检测分析技术的国内外相关研究进展
1.2.1 大数据平台异常检测分析技术的国内外研究现状
1.2.2 大数据平台异常检测分析系统的国内外研究现状
1.3 本书的主要贡献
1.4 本书的组织结构
1.5 本章小结
第2章 大数据平台异常检测分析的相关基础
2.1 引言
2.2 日志
2.3 日志预处理
2.4 异常检测
2.4.1 异常检测的定义
2.4.2 几类常见的异常检测算法
2.5 入侵检测Snort系统
2.6 Web用户行为模式挖掘
2.7 本章小结
第3章 基于数据流二重概念漂移检测的增量学习
3.1 引言
3.2 二重概念漂移检测机制
3.3 基于数据属性的二重概念漂移检测机制
3.4 基于分类性能的二重概念漂移检测机制
3.5 基于增量SVM与二重检测的概念漂移数据流分类模型TDD-ISVM
3.6 TDD-ISVM算法的时间复杂度分析
3.7 实验设计与结果分析
3.7.1 实验数据集
3.7.2 实验结果与分析
3.8 本章小结
第4章 分布式日志的最大频繁序列模式挖掘算法
4.1 引言
4.2 序列模式挖掘相关工作
4.3 动机与背景
4.3.1 使用分布式计算框架的动机与背景
4.3.2 使用PrefixSpan算法挖掘序列模式的动机与背景
4.3.3 改进PrefixSpan算法提取局部最大频繁序列的动机与背景
4.3.4 改进PrefixSpan算法提取全局最大频繁序列的动机与背景
4.4 分布式日志最大频繁序列模式挖掘算法描述
4.4.1 基于Spark的分布式计算框架
4.4.2 算法总体描述
4.4.3 算法第一阶段:各节点提取局部最大频繁序列
4.4.4 算法第二阶段:各节点集成,提取全局最大频繁序列
4.5 实验设计与结果分析
4.5.1 实验数据集
4.5.2 实验结果与分析
4.6 本章小结
第5章 基于最大频繁模式的动态规则库构建算法
5.1 引言
5.2 动态Web用户访问序列数据库DWASD的构建
5.3 基于DWASD的分布式PrefixSpan算法
5.3.1 PrefixSpan算法改进描述
5.3.2 算法的时间复杂度分析
5.4 实验设计与结果分析
5.4.1 实验数据集
5.4.2 实验结果与分析
5.5 本章小结
第6章 基于Web会话流的分布式实时异常定位算法
6.1 引言
6.2 基于Web会话流的实时异常定位框架
6.3 基于混合生物基因序列比对的异常定位AL_HBGSA算法
6.3.1 基本概念
6.3.2 AL_HBGSA序列比对算法
6.3.3 AL_HBGSA算法的时间复杂度分析
6.4 实验设计与结果分析
6.4.1 实验数据集
6.4.2 实验结果与分析
6.5 本章小结
第7章 基于最大信息系数的在线异常检测算法
7.1 引言
7.2 相关基础
7.2.1 用户活跃度
7.2.2 最大信息系数
7.3 基于最大信息系数的在线异常检测算法介绍
7.4 算法的时间复杂度分析
7.5 实验设计与结果分析
7.5.1 实验数据集
7.5.2 实验结果与分析
7.6 本章小结
第8章 基于聚类分析的离线异常检测算法
8.1 引言
8.2 基本聚类算法
8.2.1 K-means聚类算法
8.2.2 Canopy聚类算法
8.2.3 CMBK聚类算法
8.3 基于改进聚类分析的离线异常检测算法
8.3.1 异常指数
8.3.2 CMBK4AD离线异常检测算法
8.4 算法的时间复杂度分析
8.5 实验设计与结果分析
8.5.1 实验数据集
8.5.2 实验结果与分析
8.6 本章小结
第9章 基于相邻请求的动态时间阈值会话识别算法
9.1 引言
9.2 相关基础
9.2.1 页面访问时间阈值
9.2.2 用户访问时间阈值
9.2.3 设置页面时间阈值
9.3 DAITS算法
9.4 实验设计与结果分析
9.4.1 实验数据集
9.4.2 实验结果与分析
9.5 本章小结
第10章 基于会话特征相似性模糊聚类的SFAD异常检测算法
10.1 引言
10.2 基本工作
10.2.1 会话特征中网络权重的计算
10.2.2 会话特征相似性的计算
10.2.3 会话数据集的模糊聚类方法
10.3 会话特征相似性模糊聚类的异常检测算法
10.3.1 会话的数据结构及生成
10.3.2 建立用户相似性矩阵
10.3.3 检测和定位异常用户
10.4 实验设计与结果分析
10.4.1 数据集描述
10.4.2 实验结果与分析
10.5 本章小结
第11章 基于贝叶斯粒子群的异常检测算法
11.1 引言
11.2 基于朴素贝叶斯分类的异常检测模型ADM-NBC
11.2.1 用户会话特征提取
11.2.2 ADM-NBC的构建
11.3 基于ADM-NBC的WNB-PSO算法
11.3.1 加权朴素贝叶斯分类算法
11.3.2 粒子群优化算法
11.3.3 改进的粒子群优化算法
11.3.4 WNB-PSO算法描述
11.4 实验设计与结果分析
11.4.1 实验数据集
11.4.2 实验结果与分析
11.5 本章小结
第12章 平台异常时的推测式任务调度策略
12.1 引言
12.2 多用户作业调度器
12.2.1 公平调度器
12.2.2 计算能力调度器
12.3 推测执行调度算法
12.3.1 Hadoop-Original推测执行调度算法
12.3.2 LATE推测执行调度算法
12.3.3 基于备份任务完成时间的推测执行调度策略
12.3.4 Mantri系统推测执行调度策略
12.4 本章小结
第13章 基于实时负载的推测式任务调度算法
13.1 引言
13.1.1 Hadoop-Original推测式任务调度算法的不足
13.1.2 LATE推测式任务调度算法的不足
13.2 推测式任务调度算法改进
13.2.1 基于混合进度比的任务进度估算方法
13.2.2 慢任务判定方法
13.2.3 慢节点判定方法
13.3 节点负载分级模型
13.4 基于实时负载的推测式任务调度算法流程
13.5 实验设计与结果分析
13.5.1 实验平台及部署
13.5.2 测试作业选择及评估方式
13.5.3 实验方案
13.5.4 实验结果与分析
13.6 本章小结
第14章 大数据Lambda架构与微服务架构技术选型
14.1 引言
14.2 大数据技术Lambda架构
14.2.1 Hadoop技术基础
14.2.2 Spark技术生态体系
14.2.3 基于Flume+Kafka的大数据收集组件
14.2.4 基于Spark的大数据处理组件
14.2.5 基于HBase的大数据存储与管理组件
14.2.6 基于MLlib的大数据分析及挖掘组件
14.2.7 基于Spark Streaming的大数据流处理组件
14.3 微服务架构的有关组件技术选型
14.3.1 微服务架构
14.3.2 Spring Boot
14.3.3 MyBatis
14.3.4 Spring Cloud
14.4 本章小结
第15章 大数据平台异常检测分析系统的结构化分析
15.1 引言
15.2 问题与场景描述
15.3 初步需求分析
15.4 系统数据流
15.4.1 顶层数据流
15.4.2 第一层数据流
15.4.3 第二层数据流
15.4.4 第三层数据流
15.5 功能需求
15.6 非功能需求
15.7 本章小结
第16章 基于融合架构的RADA系统概要设计
16.1 引言
16.1.1 RADA系统逻辑架构的初步构建
16.1.2 RADA系统物理架构的初步构建
16.2 RADA系统逻辑架构设计
16.2.1 基于微服务架构的RADA系统逻辑架构设计
16.2.2 基于Lambda架构的RADA系统逻辑架构设计
16.2.3 基于微服务架构和Lambda架构的RADA系统技术架构设计
16.3 运行部署环境
16.3.1 系统运行网络环境
16.3.2 系统运行硬件环境
16.3.3 系统运行软件环境
16.4 日志预处理子系统概要设计
16.4.1 上传离线日志
16.4.2 处理离线日志
16.4.3 获取实时日志
16.4.4 处理实时日志
16.4.5 日志规范化
16.4.6 处理规范化日志
16.4.7 添加日志模板
16.4.8 处理日志模板
16.5 监控告警子系统概要设计
16.5.1 设置告警方式
16.5.2 离线异常检测
16.5.3 实时异常检测
16.5.4 查询异常信息
16.5.5 更新规则库
16.6 数据库设计
16.6.1 数据库实体关系分析
16.6.2 数据字典
16.7 本章小结
第17章 RADA系统的详细设计与实现方法
17.1 引言
17.2 RADA系统架构的实现机制
17.2.1 RADA系统中微服务架构的实现
17.2.2 RADA系统中Lambda架构的实现
17.3 日志预处理的详细设计
17.3.1 控制层设计
17.3.2 服务层设计
17.3.3 持久化层设计
17.4 监控告警模块的详细设计
17.4.1 控制层设计
17.4.2 服务层设计
17.4.3 持久层设计
17.5 核心用例的实现
17.5.1 上传离线日志
17.5.2 离线日志规范化处理
17.5.3 离线异常检测
17.5.4 获取实时日志
17.5.5 实时日志规范化处理
17.5.6 实时异常检测
17.6 本章小结
第18章 总结与展望
18.1 总结
18.2 展望
附录A
参考文献
封底
大数据平台异常检测分析系统的若干关键技术研究是2020年由电子工业出版社出版,作者肖如良。
得书感谢您对《大数据平台异常检测分析系统的若干关键技术研究》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。