Scala机器学习

Scala机器学习

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

内容简介

这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据。本书后面将介绍关于Hadoop的内容。最初它能在廉价硬件上处理大量的信息,因为当时传统的关系数据库不能处理这样的信息(或能处理,但是代价过高)。大数据这个话题太大了,而Spark才是本书的重点,它是Hadoop MapReduce的另一个实现,Spark提高了磁盘上持久化保存数据的效率。通常认为使用Spark有点贵,因为它消耗更多的内存,要求硬件必须更可靠,但它也更具交互性。此外,Spark使用Scala工作(也可以使用Java和Python等),但Scala是主要的API语言。因此Spark用Scala在数据管道的表达方面有一定的协同性。

作者简介

作者亚历克斯·科兹洛夫,是一名多学科的大数据科学家。自1991年来到硅谷起就创办了几家计算机和数据管理公司。期间,他师从Daphne Koller和John Hennessy两位教授,于1998年获得斯坦福大学博士学位。他目前是企业安全初创公司E8 Security的首席解决方案架构师,曾在Cloudera、HP公司的HPLabs工作。

章节目录

版权信息

译者序

前言

第1章 探索数据分析

1.1 Scala入门

1.2 去除分类字段的重复值

1.3 数值字段概述

1.4 基本抽样、分层抽样和一致抽样

1.5 使用Scala和Spark的Notebook工作

1.6 相关性的基础

1.7 总结

第2章 数据管道和建模

2.1 影响图

2.2 序贯试验和风险处理

2.3 探索与利用问题

2.4 不知之不知

2.5 数据驱动系统的基本组件

2.6 优化和交互

2.7 总结

第3章 使用Spark和MLlib

3.1 安装Spark

3.2 理解Spark的架构

3.3 应用

3.4 机器学习库

3.5 Spark的性能调整

3.6 运行Hadoop的HDFS

3.7 总结

第4章 监督学习和无监督学习

4.1 记录和监督学习

4.2 无监督学习

4.3 数据维度

4.4 总结

第5章 回归和分类

5.1 回归是什么

5.2 连续空间和度量

5.3 线性回归

5.4 logistic回归

5.5 正则化

5.6 多元回归

5.7 异方差

5.8 回归树

5.9 分类的度量

5.10 多分类问题

5.11 感知机

5.12 泛化误差和过拟合

5.13 总结

第6章 使用非结构化数据

6.1 嵌套数据

6.2 其他序列化格式

6.3 Hive和Impala

6.4 会话化

6.5 使用特质

6.6 使用模式匹配

6.7 非结构化数据的其他用途

6.8 概率结构

6.9 投影

6.10 总结

第7章 使用图算法

7.1 图简介

7.2 SBT

7.3 Scala的图项目

7.4 GraphX

7.5 总结

第8章 Scala与R和Python的集成

8.1 R的集成

8.2 Python的集成

8.3 总结

第9章 Scala中的NLP

9.1 文本分析流程

9.2 Spark的MLlib库

9.3 分词、标注和分块

9.4 POS标记

9.5 使用word2vec寻找词关系

9.6 总结

第10章 高级模型监控

10.1 系统监控

10.2 进程监控

10.3 模型监控

10.4 总结

Scala机器学习是2017年由机械工业出版社有限公司出版,作者[美]亚历克斯·科兹洛夫。

得书感谢您对《Scala机器学习》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python机器学习 电子书
《Python机器学习》从实用的角度出发,整合Python语言基础、数据分析与可视化、机器学习常用算法等知识。内容从*基本的Python编程基础入手,由浅入深、循序渐进地讲授NumPy库和Matplotlib库,以及复杂的机器学习基本理论和算法,并突出知识的实用性和可操作性。《Python机器学习》力求以浅显的语言讲解复杂的知识,以直观的案例辅助读者理解,并以图表形式展示代码和运行结果,配合习题巩
场景化机器学习 电子书
本书展示了如何在业务场景中应用机器学习,全书分为三个部分。第一部分介绍有效的决策如何帮助公司提高生产率以保持竞争力,阐释如何使用开源工具和AWS工具将机器学习应用于业务决策中。第二部分以虚拟人物为主线,研究六个场景,这些场景展示了如何使用机器学习来制定各种业务决策。第三部分讨论如何在Web上设置和共享机器学习模型,还介绍了一些案例。
机器学习公式详解 电子书
适读人群 :(1)高等院校人工智能、计算机、自动化等相关专业机器学习方向的学生;(2)学术界机器学习领域的研究人员和教师;(3)工业界对机器学习感兴趣的专业人员和工程师。 1.周志华教授“西瓜书”《机器学习》公式完全解析指南! “南瓜书”系Datawhale成员自学笔记,对“西瓜书”中250个重难点公式做了详细解析和推导(重难点公式覆盖率达99%),旨在解决机器学习中的数学难题。 2.机器学习初学小白提升数学基础能力的必备练习册! 以本科数学基础视角对“西瓜书”里比较难理解的公式加以解析和推导细节,补充大量重、难点数学知识和参考材料,分享在学习中遇到的“坑”以及跳过这个“坑”的方法,对于初学机器学习的小白也能上手练习! 3.俞勇、王斌、李沐、程明明、陈光(博主@爱可可-爱生活)、徐亦达等人工智能领域大咖亲笔推荐
机器学习案例实战 电子书
机器学习已经广泛地应用于各行各业,深度学习的兴起再次推动了人工智能的热潮。本书结合项目实践,首先讨论了TensorFlow、PySpark、TI-ONE等主流机器学习平台的主要特点;然后结合Tableau介绍了数据可视化在银行客户用卡行为分析的应用。在此基础上,利用上述介绍的这些平台,通过多个项目案例,详细地分析了决策树、随机森林、支持向量机、逻辑回归、贝叶斯网络、卷积神经网络、循环神经网络、对抗
机器学习Python实战 电子书
本书使用Python的机器学习算法库scikit-learn讲解机器学习重要算法的应用,内容包括机器学习认知、数据预处理、KNN算法、线性回归算法、逻辑回归算法、朴素贝叶斯算法、决策树与随机森林算法、支持向量机、k-mcans算法、神经网络、模型评估与优化。本书使用通俗易懂的语言、丰富的图表和大量的案例对机器学习的重要算法进行讲解,提供一条从实践出发掌握机器学习知识的途径,读者即使没有很扎实的数学