Scala机器学习

Scala机器学习

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

内容简介

这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据。本书后面将介绍关于Hadoop的内容。最初它能在廉价硬件上处理大量的信息,因为当时传统的关系数据库不能处理这样的信息(或能处理,但是代价过高)。大数据这个话题太大了,而Spark才是本书的重点,它是Hadoop MapReduce的另一个实现,Spark提高了磁盘上持久化保存数据的效率。通常认为使用Spark有点贵,因为它消耗更多的内存,要求硬件必须更可靠,但它也更具交互性。此外,Spark使用Scala工作(也可以使用Java和Python等),但Scala是主要的API语言。因此Spark用Scala在数据管道的表达方面有一定的协同性。

作者简介

作者亚历克斯·科兹洛夫,是一名多学科的大数据科学家。自1991年来到硅谷起就创办了几家计算机和数据管理公司。期间,他师从Daphne Koller和John Hennessy两位教授,于1998年获得斯坦福大学博士学位。他目前是企业安全初创公司E8 Security的首席解决方案架构师,曾在Cloudera、HP公司的HPLabs工作。

章节目录

版权信息

译者序

前言

第1章 探索数据分析

1.1 Scala入门

1.2 去除分类字段的重复值

1.3 数值字段概述

1.4 基本抽样、分层抽样和一致抽样

1.5 使用Scala和Spark的Notebook工作

1.6 相关性的基础

1.7 总结

第2章 数据管道和建模

2.1 影响图

2.2 序贯试验和风险处理

2.3 探索与利用问题

2.4 不知之不知

2.5 数据驱动系统的基本组件

2.6 优化和交互

2.7 总结

第3章 使用Spark和MLlib

3.1 安装Spark

3.2 理解Spark的架构

3.3 应用

3.4 机器学习库

3.5 Spark的性能调整

3.6 运行Hadoop的HDFS

3.7 总结

第4章 监督学习和无监督学习

4.1 记录和监督学习

4.2 无监督学习

4.3 数据维度

4.4 总结

第5章 回归和分类

5.1 回归是什么

5.2 连续空间和度量

5.3 线性回归

5.4 logistic回归

5.5 正则化

5.6 多元回归

5.7 异方差

5.8 回归树

5.9 分类的度量

5.10 多分类问题

5.11 感知机

5.12 泛化误差和过拟合

5.13 总结

第6章 使用非结构化数据

6.1 嵌套数据

6.2 其他序列化格式

6.3 Hive和Impala

6.4 会话化

6.5 使用特质

6.6 使用模式匹配

6.7 非结构化数据的其他用途

6.8 概率结构

6.9 投影

6.10 总结

第7章 使用图算法

7.1 图简介

7.2 SBT

7.3 Scala的图项目

7.4 GraphX

7.5 总结

第8章 Scala与R和Python的集成

8.1 R的集成

8.2 Python的集成

8.3 总结

第9章 Scala中的NLP

9.1 文本分析流程

9.2 Spark的MLlib库

9.3 分词、标注和分块

9.4 POS标记

9.5 使用word2vec寻找词关系

9.6 总结

第10章 高级模型监控

10.1 系统监控

10.2 进程监控

10.3 模型监控

10.4 总结

Scala机器学习是2017年由机械工业出版社有限公司出版,作者[美]亚历克斯·科兹洛夫。

得书感谢您对《Scala机器学习》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
机器学习实战 电子书
本书共11章,从推荐系统的发展历史、基本构成开始,依次剖析推荐系统的内容召回、协同过滤召回、深度学习召回中具有代表性的模型;再从经典排序模型到基于深度学习的排序,顺势介绍会话推荐、强化学习推荐及工业级推荐,搭建了完整的推荐系统技术体系,这是一个由浅入深的系统学习过程。
场景化机器学习 电子书
本书展示了如何在业务场景中应用机器学习,全书分为三个部分。第一部分介绍有效的决策如何帮助公司提高生产率以保持竞争力,阐释如何使用开源工具和AWS工具将机器学习应用于业务决策中。第二部分以虚拟人物为主线,研究六个场景,这些场景展示了如何使用机器学习来制定各种业务决策。第三部分讨论如何在Web上设置和共享机器学习模型,还介绍了一些案例。
机器学习公式详解 电子书
适读人群 :(1)高等院校人工智能、计算机、自动化等相关专业机器学习方向的学生;(2)学术界机器学习领域的研究人员和教师;(3)工业界对机器学习感兴趣的专业人员和工程师。 1.周志华教授“西瓜书”《机器学习》公式完全解析指南! “南瓜书”系Datawhale成员自学笔记,对“西瓜书”中250个重难点公式做了详细解析和推导(重难点公式覆盖率达99%),旨在解决机器学习中的数学难题。 2.机器学习初学小白提升数学基础能力的必备练习册! 以本科数学基础视角对“西瓜书”里比较难理解的公式加以解析和推导细节,补充大量重、难点数学知识和参考材料,分享在学习中遇到的“坑”以及跳过这个“坑”的方法,对于初学机器学习的小白也能上手练习! 3.俞勇、王斌、李沐、程明明、陈光(博主@爱可可-爱生活)、徐亦达等人工智能领域大咖亲笔推荐
机器学习工程实战 电子书
机器学习入门手册《机器学习精讲》姊妹篇,人工智能和机器学习领域专业人士的多年实践结晶,深入浅出讲解机器学习应用和工程实践。
机器学习案例实战 电子书
机器学习已经广泛地应用于各行各业,深度学习的兴起再次推动了人工智能的热潮。本书结合项目实践,首先讨论了TensorFlow、PySpark、TI-ONE等主流机器学习平台的主要特点;然后结合Tableau介绍了数据可视化在银行客户用卡行为分析的应用。在此基础上,利用上述介绍的这些平台,通过多个项目案例,详细地分析了决策树、随机森林、支持向量机、逻辑回归、贝叶斯网络、卷积神经网络、循环神经网络、对抗