编辑推荐
本书系统讲解了Spark机器学习的技术、原理、组建、算法,以及构建Spark机器学习系统的方法、流程、标准和规范。
内容简介
大数据、人工智能正在改变或颠覆各行各业,包括我们的生活。大数据、人工智能方面的人才已经供不应求,但作为人工智能的核心——机器学习,因涉及的知识和技能比较多,除了需要具备一定的数学基础、相关业务知识外,还要求有比较全面的技术储备,如操作系统、数据库、开发语言、数据分析工具、大数据计算平台等,无形中提高了机器学习的门槛。如何降低机器学习的门槛,让更多有志于机器学习、人工智能的人能更方便或顺畅地使用、驾驭机器学习?很多企业也正在考虑和处理这方面的问题,本书也希望借Spark技术在这方面做一些介绍或总结。
作者简介
作者吴茂贵,资深BI和大数据专家,在BI、数据挖掘与分析、数据仓库、机器学习等领域有超过20年的工作经验,在Spark机器学习、TensorFlow深度学习领域有大量的实践经验。
章节目录
版权信息
前言
第1章 了解机器学习
1.1 机器学习的定义
1.2 大数据与机器学习
1.3 机器学习、人工智能及深度学习
1.4 机器学习的基本任务
1.5 如何选择合适算法
1.6 Spark在机器学习方面的优势
1.7 小结
第2章 构建Spark机器学习系统
2.1 机器学习系统架构
2.2 启动集群
2.3 加载数据
2.4 探索数据
2.4.1 数据统计信息
2.4.2 数据质量分析
2.4.3 数据特征分析
2.4.4 数据的可视化
2.5 数据预处理
2.5.1 数据清理
2.5.2 数据变换
2.5.3 数据集成
2.5.4 数据归约
2.6 构建模型
2.7 模型评估
2.8 组装
2.9 模型选择或调优
2.9.1 交叉验证
2.9.2 训练–验证切分
2.10 保存模型
2.11 小结
第3章 ML Pipeline原理与实战
3.1 Pipeline简介
3.2 DataFrame
3.3 Pipeline组件
3.4 Pipeline原理
3.5 Pipeline实例
3.5.1 使用Estimator、Transformer和Param的实例
3.5.2 ML使用Pipeline的实例
3.6 小结
第4章 特征提取、转换和选择
4.1 特征提取
4.1.1 词频——逆向文件频率(TF-IDF)
4.1.2 Word2Vec
4.1.3 计数向量器
4.2 特征转换
4.2.1 分词器
4.2.2 移除停用词
4.2.3 n-gram
4.2.4 二值化
4.2.5 主成分分析
4.2.6 多项式展开
4.2.7 离散余弦变换
4.2.8 字符串——索引变换
4.2.9 索引——字符串变换
4.2.10 独热编码
4.2.11 向量——索引变换
4.2.12 交互式
4.2.13 正则化
4.2.14 规范化
4.2.15 最大值——最小值缩放
4.2.16 最大值——绝对值缩放
4.2.17 离散化重组
4.2.18 元素乘积
4.2.19 SQL转换器
4.2.20 向量汇编
4.2.21 分位数离散化
4.3 特征选择
4.3.1 向量机
4.3.2 R公式
4.3.3 卡方特征选择
4.4 小结
第5章 模型选择和优化
5.1 模型选择
5.2 交叉验证
5.3 训练验证拆分法
5.4 自定义模型选择
5.5 小结
第6章 Spark MLlib基础
6.1 Spark MLlib简介
6.2 Spark MLlib架构
6.3 数据类型
6.4 基础统计
6.4.1 摘要统计
6.4.2 相关性
6.4.3 假设检验
6.4.4 随机数据生成
6.5 RDD、Dataframe和Dataset
6.5.1 RDD
6.5.2 Dataset/DataFrame
6.5.3 相互转换
6.6 小结
第7章 构建Spark ML推荐模型
7.1 推荐模型简介
7.2 数据加载
7.3 数据探索
7.4 训练模型
7.5 组装
7.6 评估模型
7.7 模型优化
7.8 小结
第8章 构建Spark ML分类模型
8.1 分类模型简介
8.1.1 线性模型
8.1.2 决策树模型
8.1.3 朴素贝叶斯模型
8.2 数据加载
8.3 数据探索
8.4 数据预处理
8.5 组装
8.6 模型优化
8.7 小结
第9章 构建Spark ML回归模型
9.1 回归模型简介
9.2 数据加载
9.3 探索特征分布
9.4 数据预处理
9.4.1 特征选择
9.4.2 特征转换
9.5 组装
9.6 模型优化
9.7 小结
第10章 构建Spark ML聚类模型
10.1 K-means模型简介
10.2 数据加载
10.3 探索特征的相关性
10.4 数据预处理
10.5 组装
10.6 模型优化
10.7 小结
第11章 PySpark决策树模型
11.1 PySpark简介
11.2 决策树简介
11.3 数据加载
11.3.1 原数据集初探
11.3.2 PySpark的启动
11.3.3 基本函数
11.4 数据探索
11.5 数据预处理
11.6 创建决策树模型
11.7 训练模型进行预测
11.8 模型优化
11.8.1 特征值的优化
11.8.2 交叉验证和网格参数
11.9 脚本方式运行
11.9.1 在脚本中添加配置信息
11.9.2 运行脚本程序
11.10 小结
第12章 SparkR朴素贝叶斯模型
12.1 SparkR简介
12.2 获取数据
12.2.1 SparkDataFrame数据结构说明
12.2.2 创建SparkDataFrame
12.2.3 SparkDataFrame的常用操作
12.3 朴素贝叶斯分类器
12.3.1 数据探查
12.3.2 对原始数据集进行转换
12.3.3 查看不同船舱的生还率差异
12.3.4 转换成SparkDataFrame格式的数据
12.3.5 模型概要
12.3.6 预测
12.3.7 评估模型
12.4 小结
第13章 使用Spark Streaming构建在线学习模型
13.1 Spark Streaming简介
13.1.1 Spark Streaming常用术语
13.1.2 Spark Streaming处理流程
13.2 Dstream操作
13.2.1 Dstream输入
13.2.2 Dstream转换
13.2.3 Dstream修改
13.2.4 Dstream输出
13.3 Spark Streaming应用实例
13.4 Spark Streaming在线学习实例
13.5 小结
第14章 TensorFlowOnSpark详解
14.1 TensorFlow简介
14.1.1 TensorFlow的安装
14.1.2 TensorFlow的发展
14.1.3 TensorFlow的特点
14.1.4 TensorFlow编程模型
14.1.5 TensorFlow常用函数
14.1.6 TensorFlow运行原理
14.1.7 TensorFlow系统架构
14.2 TensorFlow实现卷积神经网络
14.2.1 卷积神经网络简介
14.2.2 卷积神经网络的发展历程
14.2.3 卷积神经网络的网络结构
14.2.4 TensorFlow实现卷积神经网络
14.3 TensorFlow实现循环神经网络
14.3.1 循环神经网络简介
14.3.2 LSTM循环神经网络简介
14.3.3 LSTM循环神经网络分步说明
14.3.4 TensorFlow实现循环神经网络
14.4 分布式TensorFlow
14.4.1 客户端、主节点和工作节点间的关系
14.4.2 分布式模式
14.4.3 在Pyspark集群环境运行TensorFlow
14.5 TensorFlowOnSpark架构
14.6 TensorFlowOnSpark安装
14.7 TensorFlowOnSpark实例
14.7.1 TensorFlowOnSpark单机模式实例
14.7.2 TensorFlowOnSpark集群模式实例
14.8 小结
附录A 线性代数
A.1 向量与空间
A.1.1 向量
A.1.2 空间
A.2 矩阵和行列式
A.2.1 矩阵
A.2.2 行列式
A.3 特征值与特征向量
附录B 概率统计
B.1 随机变量与概率分布
B.1.1 概念
B.1.2 表示方法
B.2 条件概率与贝叶斯
B.2.1 前言
B.2.2 公式推导
B.3 协方差与多元正态分布
B.3.1 协方差
B.3.2 多元正态分布
B.4 估计与检验
B.4.1 估计方法介绍——均值估计
B.4.2 检验理论:
附录C Scala基础
C.1 Scala简介
C.1.1 Scala概述
C.1.2 Scala简介
C.1.3 Scala与Java、Python
C.1.4 安装配置
C.2 基础知识
C.2.1 常量与变量
C.2.2 基本类型
C.2.3 控制语句
C.3 常用集合
C.3.1 数组
C.3.2 列表
C.3.3 元组
C.3.4 集合
C.3.5 映射
C.3.6 集合的模式匹配
C.4 函数
C.4.1 函数定义
C.4.2 匿名函数
C.4.3 递归函数
C.4.4 有默认值参数的函数
C.4.5 变长参数的函数
C.4.6 部分应用的函数
C.4.7 柯里化函数
C.4.8 遍历集合成员
深度实践Spark机器学习是2018年由机械工业出版社华章分社出版,作者吴茂贵。
得书感谢您对《深度实践Spark机器学习》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。