小白学数据挖掘与机器学习——SPSSModeler案例篇

小白学数据挖掘与机器学习——SPSSModeler案例篇

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

通俗易懂传授数据科学,结合SPSS Modeler与行业案例。

内容简介

本书利用轻松的场景,把专业晦涩的数据科学知识及商业应用案例用通俗易懂的方式传递给读者,同时所有场景会结合SPSS Modeler工具进行实现并提供样例供读者学习,方便读者在学习的同时加深对知识的巩固和理解。本书主要内容包括数据挖掘相关知识介绍、认识数据、理解数据、数据操作入门、SPSS Modeler中的建模方法、逻辑回归、贝叶斯方法、决策树、神经网络、聚类算法、机器学习,最后以行业案例来介绍具体的应用场景。

章节目录

封面

版权页

专家推荐语

前言

目录

第1章 数据挖掘那些事儿

1.1 当我们在谈数据挖掘时,其实在讨论什么

1.2 从CRISP-DM开启数据挖掘实践

第2章 数据挖掘之利器:SPSSModeler

2.1 SPSS Modeler简介

2.2 SPSS Modeler的下载与安装

2.3 SPSS Modeler的主界面及基本操作

2.3.1 SPSS Modeler主界面介绍

2.3.2 鼠标基本操作

2.4 将SPSS Modeler连接到服务器端

第3章 巧妇难为无米之炊:数据,数据!

3.1 数据的身份

3.1.1 变量的测量级别

3.1.2 变量的角色

3.2 数据的读取

3.2.1 读取Excel文件数据

3.2.2 读取变量文件数据

3.2.3 读取SPSS Statistics(.sav)文件数据

3.2.4 读取数据库数据

3.3 数据的基本设定

3.3.1 变量角色的设定

3.3.2 字段的筛选及命名

3.4 数据的集成

3.4.1 数据的变量集成:合并节点

3.4.2 数据的记录集成:追加节点

第4章 一点都不简单的描述性统计分析

4.1 分类变量的基本分析:“矩阵”节点

4.2 连续变量的基本分析:数据审核节点

4.2.1 连续变量基本分析指标介绍

4.2.2 “数据审核”节点

第5章 何为足够大的差异:常用的统计检验

5.1 假设检验

5.1.1 假设检验的基本原理

5.1.2 假设检验的一般步骤

5.2 连续变量与分类变量之间的关系:t检验

5.2.1 两组独立样本均值比较

5.2.2 两组配对样本均值比较

5.2.3 使用t检验的前提条件

5.2.4 案例:使用均值比较分析电信客户的流失情况

5.3 两个连续变量之间的关系:相关分析

5.3.1 相关分析理论

5.3.2 案例:使用相关分析研究居民消费水平与国内生产总值的相关关系

5.4 两个分类变量之间的关系:卡方检验

5.4.1 卡方检验的原理

5.4.2 卡方检验的前提条件

5.4.3 案例:使用卡方检验研究两个分类字段之间的关系

第6章 从身高和体重的关系谈起:回归分析

6.1 一元线性回归分析

6.1.1 分析因变量与自变量的关系,构建回归模型

6.1.2 估计模型系数,求解回归模型

6.1.3 对模型系数进行检验,确认模型有效性

6.1.4 拟合优度检验,判断模型解释能力

6.1.5 借助回归模型进行预测

6.2 多元线性回归分析

6.2.1 估计模型系数,求解回归模型

6.2.2 对模型参数进行检验,确认模型有效性

6.2.3 拟合优度检验,判断模型解释能力

6.2.4 模型的变量选择

6.3 使用线性回归分析的注意事项

6.4 案例:使用回归分析研究影响房屋价格的重要因素

第7章 回归岂止这么简单:回归模型的进一步扩展

7.1 曲线回归

7.2 Logistic回归

7.2.1 Logistic回归理论

7.2.2 案例:使用Logistic回归模型分析个人收入水平影响因素

第8章 模型评估那些事儿:过拟合与欠拟合

8.1 过拟合与欠拟合

8.2 留出法与交叉验证

8.2.1 留出法与分层抽样

8.2.2 交叉验证

第9章 从看电影的思考到决策树的生成

9.1 决策树概述

9.2 决策树生成

9.2.1 从ID3算法到C5.0算法

9.2.2 CART算法

9.3 决策树的剪枝

9.3.1 预剪枝策略

9.3.2 后剪枝策略

9.3.3 代价敏感学习

9.4 案例:用决策树分析客户违约情况

9.5 关于信息熵的扩展

第10章 人工神经网络:从人脑神经元开始

10.1 从人脑神经元到人工神经网络

10.2 感知机

10.3 人工神经网络

10.3.1 隐藏层的作用

10.3.2 人工神经网络算法

10.4 案例:利用人工神经网络分析某电信运营商的客户流失情况

第11章 物以类聚,人以群分:聚类分析

11.1 聚类思想的概述

11.2 聚类方法的关键:距离

11.3 K-Means算法

11.3.1 K-Means算法原理

11.3.2 轮廓系数(Silhouette coefficient)

11.4 案例:利用K-Means算法对不同型号汽车的属性进行聚类分群研究

第12章 啤酒+尿布=关联分析?

12.1 一个关于关联分析的传说

12.2 关联分析的基本概念

12.3 关联规则的有效性指标

12.4 Apriori算法

12.4.1 生成频繁项集

12.4.2 生成关联规则

12.5 案例:利用Apriori算法对顾客的个人信息及购买记录进行关联分析

第13章 三个臭皮匠,赛过诸葛亮:集成学习算法

13.1 集成学习算法概述

13.2 3种不同的集成学习算法

13.2.1 Bagging算法

13.2.2 Boosting算法

13.2.3 随机森林

13.3 集成学习算法实践

13.3.1 Bagging算法和Boosting算法

13.3.2 随机森林

13.3.3 集成学习算法结果比较

小白学数据挖掘与机器学习——SPSSModeler案例篇是2018年由电子工业出版社出版,作者张浩彬。

得书感谢您对《小白学数据挖掘与机器学习——SPSSModeler案例篇》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
机器学习 电子书
机器学习基础与高级内容全面讲解,实例丰富,易于学习巩固。
Python高手修炼之道:数据处理与机器学习实战 电子书
适读人群 :1.没有编程知识的新手 不同于一般的基础语法讲解教程,本书并未将Python 开发限定于某个集成开发工具(IDE)中,而是采用交互式编程的方式来强化读者对语言特性的理解,帮助新手读者真正理解Python 语言和Python 编程。2.从未接触过Python 语言,但了解一点编程知识的初学者 本书通过对基础知识高度的提炼和概括,以避免初学者陷入低级且冗长的细节知识点而心生懈怠;同时,本书为初学者规划了从初级到高级的编程技能提升路线图。3.具有一定基础的Python 程序员 本书可以作为案头工具书来使用。本书从基础语法、基本技能讲起,涵盖了科学计算、数据处理、机器学习等领域,示例代码涉及30 余个模块的使用。 构建从Python入门到数据分析到机器学习的路线图,入门有章可循; 1.讲解独到,常见盲点趣解析 作者基于多年的经验积累,善于总结概括初学Python过程中的误区。 2.内容全面,常用工具全涵盖 书中介绍的Python工具包覆盖Numpy、Matplotlib、Pandas、SciPy、Scikit-Learn,方便读者拓展实用技能、掌握工作利器。 3.拓展训练,重点知识有强化 语感训练100题、Python内置函数(类)手册、从新手到高手的100个模块,强化知识点的掌握。 4.代码完整,随时动手可复现 本书提供了完整、可验证的代码,方便读者动手练习并强化理解。
机器学习与Python实践 电子书
机器学习理论实践全书,12章内容丰富,适合各层次读者。
数据产品经理高效学习手册:产品设计、技术常识与机器学习 电子书
详解产品设计思维框架和具体操作流程。
大数据时代的数据挖掘 电子书
(1)内容全面,覆盖当前数据挖掘的主要应用。在介绍每个应用案例时,详细阐述应用的背景,该领域中数据的来源和特点,数据采集与预处理方式,应用领域中数据挖掘的任务和实施数据挖掘技术的难点。同时提供相应的数据挖掘算法分析、工具设计以及系统实现。 (2)条理清晰、便于理解。一方面,面向热爱和关心数据挖掘技术的学术界和工业界读者,帮助他们更好地理解研究的目的和应用的基础;另一方面,让没有太多相关技术背景的读者可以通过阅读本书能够了解数据挖掘的意义和价值,可以看出数据挖掘是如何被广泛地应用于实际案例并成为解决各种问题的核心工具。