内容简介
这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据。本书后面将介绍关于Hadoop的内容。最初它能在廉价硬件上处理大量的信息,因为当时传统的关系数据库不能处理这样的信息(或能处理,但是代价过高)。大数据这个话题太大了,而Spark才是本书的重点,它是Hadoop MapReduce的另一个实现,Spark提高了磁盘上持久化保存数据的效率。通常认为使用Spark有点贵,因为它消耗更多的内存,要求硬件必须更可靠,但它也更具交互性。此外,Spark使用Scala工作(也可以使用Java和Python等),但Scala是主要的API语言。因此Spark用Scala在数据管道的表达方面有一定的协同性。
作者简介
作者亚历克斯·科兹洛夫,是一名多学科的大数据科学家。自1991年来到硅谷起就创办了几家计算机和数据管理公司。期间,他师从Daphne Koller和John Hennessy两位教授,于1998年获得斯坦福大学博士学位。他目前是企业安全初创公司E8 Security的首席解决方案架构师,曾在Cloudera、HP公司的HPLabs工作。
章节目录
版权信息
译者序
前言
第1章 探索数据分析
1.1 Scala入门
1.2 去除分类字段的重复值
1.3 数值字段概述
1.4 基本抽样、分层抽样和一致抽样
1.5 使用Scala和Spark的Notebook工作
1.6 相关性的基础
1.7 总结
第2章 数据管道和建模
2.1 影响图
2.2 序贯试验和风险处理
2.3 探索与利用问题
2.4 不知之不知
2.5 数据驱动系统的基本组件
2.6 优化和交互
2.7 总结
第3章 使用Spark和MLlib
3.1 安装Spark
3.2 理解Spark的架构
3.3 应用
3.4 机器学习库
3.5 Spark的性能调整
3.6 运行Hadoop的HDFS
3.7 总结
第4章 监督学习和无监督学习
4.1 记录和监督学习
4.2 无监督学习
4.3 数据维度
4.4 总结
第5章 回归和分类
5.1 回归是什么
5.2 连续空间和度量
5.3 线性回归
5.4 logistic回归
5.5 正则化
5.6 多元回归
5.7 异方差
5.8 回归树
5.9 分类的度量
5.10 多分类问题
5.11 感知机
5.12 泛化误差和过拟合
5.13 总结
第6章 使用非结构化数据
6.1 嵌套数据
6.2 其他序列化格式
6.3 Hive和Impala
6.4 会话化
6.5 使用特质
6.6 使用模式匹配
6.7 非结构化数据的其他用途
6.8 概率结构
6.9 投影
6.10 总结
第7章 使用图算法
7.1 图简介
7.2 SBT
7.3 Scala的图项目
7.4 GraphX
7.5 总结
第8章 Scala与R和Python的集成
8.1 R的集成
8.2 Python的集成
8.3 总结
第9章 Scala中的NLP
9.1 文本分析流程
9.2 Spark的MLlib库
9.3 分词、标注和分块
9.4 POS标记
9.5 使用word2vec寻找词关系
9.6 总结
第10章 高级模型监控
10.1 系统监控
10.2 进程监控
10.3 模型监控
10.4 总结
Scala机器学习是2017年由机械工业出版社有限公司出版,作者[美]亚历克斯·科兹洛夫。
得书感谢您对《Scala机器学习》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。