编辑推荐
介绍Spark的基础知识,从利用Spark API来载入和处理数据,到将数据作为多种机器学习模型的输入。
内容简介
本书每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。
作者简介
作者Nick Pentreath是Graphflow公司联合创始人。Graphflow是一家大数据和机器学习公司,专注于以用户为中心的推荐系统和客户服务智能化技术。Nick拥有金融市场、机器学习和软件开发背景,曾任职于高盛集团,之后去在线广告营销创业公司Cognitive Match Limited(伦敦)担任研究科学家,后又去非洲最大的社交网络Mxit领导数据科学与分析团队。Nick是Apache Spark项目管理委员会成员之一。
章节目录
版权信息
前言
致谢
第1章 Spark的环境搭建与运行
1.1 Spark的本地安装与配置
1.2 Spark集群
1.3 Spark编程模型
1.4 Spark Scala编程入门
1.5 Spark Java编程入门
1.6 Spark Python编程入门
1.7 在Amazon EC2上运行Spark
1.8 小结
第2章 设计机器学习系统
2.1 MovieStream介绍
2.2 机器学习系统商业用例
2.3 机器学习模型的种类
2.4 数据驱动的机器学习系统的组成
2.5 机器学习系统架构
2.6 小结
第3章 Spark上数据的获取、处理与准备
3.1 获取公开数据集
3.2 探索与可视化数据
3.3 处理与转换数据
3.4 从数据中提取有用特征
3.5 小结
第4章 构建基于Spark的推荐引擎
4.1 推荐模型的分类
4.2 提取有效特征
4.3 训练推荐模型
4.4 使用推荐模型
4.5 推荐模型效果的评估
4.6 小结
第5章 Spark构建分类模型
5.1 分类模型的种类
5.2 从数据中抽取合适的特征
5.3 训练分类模型
5.4 使用分类模型
5.5 评估分类模型的性能
5.6 改进模型性能以及参数调优
5.7 小结
第6章 Spark构建回归模型
6.1 回归模型的种类
6.2 从数据中抽取合适的特征
6.3 回归模型的训练和应用
6.4 评估回归模型的性能
6.5 改进模型性能和参数调优
6.6 小结
第7章 Spark构建聚类模型
7.1 聚类模型的类型
7.2 从数据中提取正确的特征
7.3 训练聚类模型
7.4 使用聚类模型进行预测
7.5 评估聚类模型的性能
7.6 聚类模型参数调优
7.7 小结
第8章 Spark应用于数据降维
8.1 降维方法的种类
8.2 从数据中抽取合适的特征
8.3 训练降维模型
8.4 使用降维模型
8.5 评价降维模型
8.6 小结
第9章 Spark高级文本处理技术
9.1 处理文本数据有什么特别之处
9.2 从数据中抽取合适的特征
9.3 使用TF-IDF模型
9.4 评估文本处理技术的作用
9.5 Word2Vec模型
9.6 小结
第10章 Spark Streaming在实时机器学习上的应用
10.1 在线学习
10.2 流处理
10.3 创建Spark Streaming应用
10.4 使用Spark Streaming进行在线学习
10.5 在线模型评估
10.6 小结
看完了
Spark机器学习是2015年由人民邮电出版社·图灵出品出版,作者[南非] Nick Pentreath。
得书感谢您对《Spark机器学习》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。