统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)

统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书将统计理论、实践和常识有机地融合在一起,基于SAS系统介绍统计数据挖掘和机器学习数据挖掘技术。

内容简介

本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。

本书在第2版的基础上新增了13章,内容涵盖数据科学发展历程、市场份额估算、无抽样调研数据预测钱包份额、潜在市场细分、利用缺失数据构建统计回归模型、十分位分析评估数据的预测能力,以及一个无须精通自然语言处理就能使用的文本挖掘工具。

作者简介

作者布鲁斯·拉特纳,统计分析师,是DM-1-1咨询公司的总裁和创始人,该公司致力于统计建模、分析和数据挖掘的样本,以及在DM领域的机器学习数据挖掘。DM stat1专门研究所有标准的统计技术,以及利用机器学习/统计算法,如其专利的GenIQ模型,实现其客户目标的方法,包括直接和数据库营销、银行、保险、金融、零售、电信、医疗、医药、出版和流通、大众与直接广告、目录营销、电子商务、网络挖掘、B2B、人力资本管理、风险管理、非营利筹款等。Bruce拥有数学和统计学的博士学位,专注于多元统计和反应模型模拟。

章节目录

版权信息

第3版前言

第2版前言

致谢

关于作者

第1章 引论

1.1 个人计算机与统计学

1.2 统计学和数据分析

1.3 EDA简介

1.4 EDA范式

1.5 EDA的弱点

1.6 小数据和大数据

1.6.1 数据规模特征

1.6.2 数据规模:个人观点

1.7 数据挖掘范式

1.8 统计学和机器学习

1.9 统计数据挖掘

参考资料

第2章 数据处理相关学科:统计学和数据科学

2.1 引言

2.2 背景

2.3 统计学与数据科学的比较

2.4 讨论:统计学与数据科学的不同之处

2.5 本章小结

2.6 结语

参考资料

第3章 变量评估的两种基本数据挖掘方法

3.1 引言

3.2 相关系数

3.3 散点图

3.4 数据挖掘

3.4.1 示例3.1

3.4.2 示例3.2

3.5 平滑散点图

3.6 一般关联性检验

3.7 本章小结

参考资料

第4章 用于评估成对变量的基于CHAID的数据挖掘方法

4.1 引言

4.2 散点图

4.3 平滑散点图

4.4 CHAID入门

4.5 用更平滑的散点图进行基于CHAID的数据挖掘

4.6 本章小结

参考资料

第5章 校直数据的简单性和可取性对建模十分重要

5.1 引言

5.2 数据的直度和对称度

5.3 数据挖掘是高级概念

5.4 相关系数

5.5 (xx3,yy3)散点图

5.6 挖掘(xx3,yy3)关系

5.7 基于遗传算法的数据挖掘如何处理数据

5.8 校直多个变量

5.9 本章小结

参考资料

第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法

6.1 引言

6.2 量度范围

6.3 茎叶图

6.4 箱线图

6.5 排序数据对称处理方法的图示

6.5.1 示例1

6.5.2 示例2

6.6 本章小结

参考资料

第7章 主成分分析:多变量评估的统计数据挖掘方法

7.1 引言

7.2 EDA重新表述范式

7.3 关键点

7.4 PCA基础

7.5 示例详解

7.6 PCA的代数特征

7.7 一个不常见示例

7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析

7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析结果

7.8 用PCA构造准交互变量

7.9 本章小结

第8章 市场份额估算:一个特殊的数据挖掘案例

8.1 引言

8.2 背景

8.3 一个特殊的数据挖掘案例

8.4 构建RAL的YUM市场份额模型

8.4.1 市场份额模型的十分位分析

8.4.2 YUM_3mos市场份额模型的结论

8.5 本章小结

附录8.A 生成PROMO_Code哑变量

附录8.B PROMO_Code哑变量的PCA

附录8.C PROMO_Code哑变量上的逻辑斯谛回归YUM_3mos

附录8.D 生成YUM_3mos_wo_PROMO_CodeEff

附录8.E 将变量标准化为位于[0,1]内

参考资料

第9章 相关系数在[-1,+1]内取值,是这样吗

9.1 引言

9.2 相关系数的基础知识

9.3 计算相关系数

9.4 重新配对

9.5 计算经调整的相关系数

9.6 重新配对的意义

9.7 本章小结

第10章 逻辑斯谛回归:回应建模方法

10.1 引言

10.2 逻辑斯谛回归模型

10.2.1 示例

10.2.2 为LRM打分

10.3 案例分析

10.4 logit值和logit散点图

10.5 校直数据的重要性

10.6 校直数据的重述

10.6.1 幂阶梯法

10.6.2 突起规则

10.6.3 测量校直数据

10.7 校直示例数据

10.7.1 FD2_OPEN的重述

10.7.2 INVESTMENT的重述

10.8 在突起规则不适用的情况下选用的技术

10.8.1 拟合logit值散点图

10.8.2 平滑预测值与实际值散点图

10.9 MOS_OPEN的重述

10.10 评估变量的重要性

10.10.1 计算G统计量

10.10.2 单变量的重要性

10.10.3 变量子集合的重要性

10.10.4 不同变量子集合的重要性比较

10.11 案例的重要变量

10.12 变量的相对重要性

10.13 案例变量的最佳子集合

10.14 模型预测准确性的可视化指标

10.14.1 得分组的平滑残差散点图

10.14.2 基于十分位组的平滑预测与实际值散点图

10.14.3 基于得分组的平滑预测与实际值散点图

10.15 评估数据挖掘工作

10.15.1 基于得分组的平滑残差分布图:EDA模型与非EDA模型对比

10.15.2 基于十分位组的平滑预测与实际值散点图:EDA模型与非EDA模型对比

10.15.3 基于得分组的平滑预测与实际值散点图:EDA模型与非EDA模型对比

10.15.4 数据挖掘工作小结

10.16 平滑一个类别变量

10.16.1 用CHAID平滑FD_TYPE

10.16.2 CH_FTY_1和CH_FTY_2的重要性

10.17 本案例的其他数据挖掘工作

10.17.1 基于得分组的平滑残差散点图:4变量EDA模型与3变量EDA模型对比

10.17.2 基于十分位组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比

10.17.3 基于得分组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比

10.17.4 其他数据挖掘工作的总结

10.18 本章小结

第11章 无抽样调研数据预测钱包份额

11.1 引言

11.2 背景

11.3 SOW_q计算过程

11.3.1 有趣的问题

11.3.2 金额和总金额

11.4 为AMPECS构建SOW_q模型

11.5 SOW_q模型的定义

11.6 本章小结

附录11.A 六步法

附录11.B 七步法

参考资料

第12章 普通回归:利润建模的强大工具

12.1 引言

12.2 普通回归模型

12.2.1 说明

12.2.2 为OLS利润模型评分

12.3 迷你案例

12.3.1 校直迷你案例的数据

12.3.2 平滑预测值散点图与实际值散点图

12.3.3 评估变量的重要性

12.4 迷你案例的重要变量

12.4.1 变量的相对重要性

12.4.2 选择最佳子集合

12.5 案例变量的最佳子集合

12.5.1 用gINCOME和AGE构建PROFIT模型

12.5.2 最佳PROFIT模型

12.6 抑制变量AGE

12.7 本章小结

参考资料

第13章 回归变量选择方法:可忽略的问题和重要解决方案

13.1 引言

13.2 背景

13.3 常用的变量选择方法

13.4 分步法的缺陷

13.5 改进的变量选择方法

13.6 本章小结

参考资料

第14章 用CHAID解读逻辑斯谛回归模型

14.1 引言

14.2 逻辑斯谛回归模型

14.3 数据库营销回应模型案例研究

14.4 CHAID

14.5 多变量CHAID树

14.6 CHAID市场细分

14.7 CHAID树状图

14.8 本章小结

第15章 回归系数的重要性

15.1 引言

15.2 普通回归模型

15.3 四个问题

15.4 重要预测变量

15.5 p值与大数据

15.6 回到问题1

15.7 预测变量对预测结果的影响

15.8 提示

15.9 回到问题2

15.10 按照对预测的影响对预测变量排序

15.11 回到问题3

15.12 回到问题4

15.13 本章小结

参考资料

第16章 相关系数均值:评估预测模型和预测变量重要性的统计数据挖掘指标

16.1 引言

16.2 背景

16.3 可靠度和效度的区别

16.4 可靠度和效度的关系

16.5 平均相关系数

16.5.1 图示LTV5模型的平均相关系数

16.5.2 LTV5模型的平均相关系数

16.5.3 LTV5模型比较

16.6 本章小结

参考资料

第17章 交互变量指定CHAID模型

17.1 引言

17.2 交互变量

17.3 交互变量建模策略

17.4 基于特殊点的策略

17.5 交互变量的回应模型示例

17.6 用CHAID找出关系

17.7 指定模型的CHAID

17.8 探索

17.9 数据库含义

17.10 本章小结

参考资料

第18章 市场细分:逻辑斯谛回归建模

18.1 引言

18.2 二值逻辑斯谛回归

18.3 多分类逻辑斯谛回归模型

18.4 使用PLR建模

18.5 市场细分的分类模型

18.5.1 移动电话用户调研

18.5.2 CHAID分析

18.5.3 CHAID树状图

18.5.4 市场细分分类模型

18.6 本章小结

第19章 市场细分:时间序列数据LCA

19.1 引言

19.2 背景

19.2.1 k均值聚类分析

19.2.2 主成分分析

19.2.3 因素分析

19.2.4 LCA与FA图示

19.3 LCA

19.4 LCA与k均值聚类分析

19.5 用LCA对时间序列数据进行市场细分

19.5.1 目标

19.5.2 最佳LCA模型

19.6 本章小结

附录19.A 建立UNITS的趋势3

附录19.B POS-ZER-NEG建立趋势4

参考资料

第20章 市场细分:理解细分群体的便捷途径

20.1 引言

20.2 背景

20.3 示例

20.4 解读各个细分市场

20.5 本章小结

附录20.A SAMPLE数据集

附录20.B 分类变量的均值

附录20.C 指数化数据

参考资料

第21章 统计回归模型:理解模型的简单方法

21.1 引言

21.2 背景

21.3 用于逻辑斯谛回归模型的EZ法

21.4 逻辑斯谛回归的EZ法示例的讨论

21.5 本章小结

附录21.A 基于M65分布的X10~X14均值

附录21.B 建立10个数据集(每个十分位区间一个)

附录21.C 十分位的指数化信息

第22章 CHAID:填充缺失值的方法

22.1 引言

22.2 数据缺失问题

22.3 与数据缺失相关的假设

22.4 CHAID填充法

22.5 示例

22.5.1 连续变量的CHAID均值填充

22.5.2 面向连续变量的大量缺失值CHAID均值填充

22.5.3 LIFE_DOL的回归树填充

22.6 CHAID面向单个类别变量的最大似然类别填充

22.6.1 填充性别变量的CHAID最大似然类别法

22.6.2 填充性别变量的分类树法

22.7 本章小结

参考资料

第23章 大数据建模

23.1 引言

23.2 背景

23.3 CCA-PCA分析法:具体案例

23.4 用完整数据集构建回应模型

23.5 用不完整数据集构建回应模型

23.6 基于PCA-BICA数据构建回应模型

23.6.1 基于主成分分析并经二值转换的不完整数据回应模型分析结果

23.6.2 综合CCA与PCA-BICA的回应模型结果

23.7 本章小结

附录23.A NMISS

附录23.B 测试完整样本分析法的样本大小

附录23.C CCA-CIA数据集

附录23.D 1和0

参考资料

第24章 艺术、科学、数字和诗歌

24.1 引言

24.2 零和一

24.3 思考的力量

24.4 统计黄金法则:衡量统计实践的艺术和科学

24.5 本章小结

参考资料

第25章 识别最佳客户:描述性、预测性和相似性描述

25.1 引言

25.2 相关概念

25.3 对有缺陷的客户进行描述

25.4 清晰有效的客户定位

25.5 预测性分析

25.6 连续变量树状图

25.7 相似人群扩展分析

25.8 相似树状图的特点

25.9 本章小结

第26章 营销模型评估

26.1 引言

26.2 回应模型的准确度

26.3 利润模型的准确度

26.4 回应模型的十分位分析与累积提升度

26.5 利润模型的十分位分析与累积提升度

26.6 回应模型的精确度

26.7 利润模型的精确度

26.8 回应模型和利润模型的分离性

26.9 累积提升度、HL/SWMAD指数以及离散系数的应用指南

26.10 本章小结

第27章 十分位分析:视角与效果

27.1 引言

27.2 背景

27.3 性能评估:回应模型与随机选择

27.4 性能评估:十分位分析

27.5 本章小结

附录27.A 计算准确度收益:模型与随机

附录27.B 计算精确度收益:模型与随机

附录27.C 回应模型PROB_est值的十分位分析

附录27.D 2×2十分位表

参考资料

第28章 T-C净提升度模型:评估试验组与对照组的营销效果

28.1 引言

28.2 背景

28.3 试验营销与对照营销回应模型的建模

28.3.1 试验组回应模型建模

28.3.2 对照组回应模型建模

28.4 T-C净提升度模型

28.5 本章小结

附录28.A 用Xs做TEST Logistic

附录28.B 用Xs做CONTROL Logistic

附录28.C 合并计算

附录28.D T-C净提升度十分位分析

参考资料

第29章 自助法在营销中的应用:一种新的模型验证方法

29.1 引言

29.2 传统模型验证

29.3 示例

29.4 三个问题

29.5 自助法

29.6 如何使用自助法

29.7 自助法十分位分析验证

29.8 其他问题

29.9 用自助法评估模型性能

29.10 用自助法评估模型效力

29.11 本章小结

参考资料

第30章 用自助法验证逻辑斯谛回归模型

30.1 引言

30.2 逻辑斯谛回归模型

30.3 如何用自助法进行验证

30.4 本章小结

参考资料

第31章 营销模型可视化:用数据深度挖掘模型

31.1 引言

31.2 图形简史

31.3 星形图基础

31.4 单变量星形图

31.5 多变量星形图

31.6 剖面曲线法

31.6.1 剖面曲线基础

31.6.2 剖面分析

31.7 示例

31.7.1 回应模型的剖面曲线

31.7.2 十分位组剖面曲线

31.8 本章小结

附录31.A 十分位各人口变量的星形图

附录31.B 人口变量各十分位的星形图

附录31.C 剖面曲线:各十分位

参考资料

第32章 预测贡献系数:预测重要性的度量

32.1 引言

32.2 背景

32.3 判定规则示例

32.4 预测贡献系数

32.5 预测贡献系数的计算

32.6 预测贡献系数的另一示例

32.7 本章小结

参考资料

第33章 建模是艺术、科学与诗的结合

33.1 引言

33.2 灵感来源于莎士比亚的诗

33.3 解读

33.4 本章小结

参考资料

第34章 献给数据狂的数据分析12步法

34.1 引言

34.2 背景

34.3 步骤

34.4 标记

34.5 本章小结

附录34.A 数据集IN

附录34.B Samsize+

附录34.C 可粘贴副本

附录34.D 缺失数据

参考资料

第35章 遗传回归模型与统计回归模型

35.1 引言

35.2 背景

35.3 目标

35.4 GenIQ模型:遗传逻辑斯谛回归

35.5 遗传编程法的发展

35.6 GenIQ模型的目标及重要特性

35.7 GenIQ模型工作原理

35.8 本章小结

参考资料

第36章 数据重用:GenIQ模型的强大数据挖掘技术

36.1 引言

36.2 数据重用

36.3 示例

36.3.1 GenIQ利润模型

36.3.2 数据重用变量简介

36.3.3 数据重用变量GenIQvar_1和GenIQvar_2

36.4 调整数据重用定义:GenIQ强化版回归模型

36.5 本章小结

第37章 数据挖掘技术——离群值的调整

37.1 引言

37.2 背景

37.3 离群值的调整

37.3.1 调整离群值的示例

37.3.2 GenIQ模型在调整离群值中的作用

37.4 本章小结

参考资料

第38章 过拟合的全新解决方案

38.1 引言

38.2 背景

38.3 利用GenIQ模型解决过拟合问题

38.3.1 RANDOM_SPLIT的GenIQ模型

38.3.2 RANDOM_SPLIT的GenIQ模型十分位分析

38.3.3 类N层分析

38.4 本章小结

第39章 回顾:为何校直数据如此重要

39.1 引言

39.2 重申校直数据的重要性

39.3 回顾:重述收入变量

39.4 回顾:挖掘(xx3,yy3)关系

39.5 本章小结

第40章 GenIQ模型的定义与应用

40.1 引言

40.2 何为优化

40.3 何为遗传建模

40.4 遗传建模示例

40.4.1 复制

40.4.2 交叉

40.4.3 突变

40.5 控制遗传模型运行的参数

40.6 遗传建模的优势与限制

40.7 营销建模的目标

40.8 GenIQ回应模型

40.9 GenIQ利润模型

40.10 案例研究:回应模型

40.11 案例研究:利润模型

40.12 本章小结

参考资料

第41章 如何为营销模型选择最佳变量

41.1 引言

41.2 背景

41.3 变量选择方法的缺陷

41.4 营销模型的目标

41.5 用GenIQ进行变量选择

41.5.1 GenIQ建模

41.5.2 GenIQ模型结构的辨别

41.5.3 GenIQ模型变量选择

41.6 逻辑斯谛回归模型的非线性替代方法

41.7 本章小结

参考资料

第42章 解读无系数模型

42.1 引言

42.2 线性回归系数

42.2.1 简单普通回归模型示例

42.2.2 简单逻辑斯谛回归模型示例

42.3 简单回归模型的准回归系数

42.3.1 简单回归模型的准回归系数示例

42.3.2 简单逻辑斯谛回归模型的准回归系数示例

42.3.3 非线性预测中的准回归系数示例

42.4 偏准回归系数

42.4.1 普适型偏回归系数的计算方法

42.4.2 多元逻辑斯谛回归模型示例

42.5 无系数模型的准回归系数

42.6 本章小结

第43章 文本挖掘:入门、示例及TXTDM软件

43.1 引言

43.2 背景

43.3 文本挖掘入门

43.4 与文本相关的统计量

43.5 文本转换中的二进制数据集

43.6 TXTDM文本挖掘程序示例

43.7 对文本挖掘模型GenIQ_FAVORED的分析

43.7.1 用文字描述更喜欢GenIQ模型的受访者

43.7.2 用文字描述更喜欢其他两种模型的受访者

43.8 对TXTDM程序加权

43.9 文档聚类

43.10 本章小结

附录43.A 加载Corpus TEXT数据集

附录43.B 创建二进制词的中间步骤

附录43.C 创建最终的二进制词

附录43.D 计算统计量TF、DF、NUM_DOCS和N

附录43.E 将GenIQ_FAVORED加入WORDS数据集

附录43.F GenIQ_FAVORED的逻辑斯谛分析模型

附录43.G 计算字词之间的关系数均值

附录43.H 创建TF-IDF

附录43.I 用WORDS和TF-IDF的Concat计算WORD_TF-IDF权重

附录43.J WORD_RESP与WORD_TF-IDF RESP

附录43.K 词干提取

附录43.L WORD乘以TF-IDF

附录43.M 用剖面的字词对数据集赋权

附录43.N 两类法VARCLUS

附录43.O 双集群法VARCLUS

附录43.P 集群1字词的指向

附录43.Q 比较GenIQ模型和随机模型的表现

附录43.R 比较自由集群模型和随机模型的表现

参考资料

第44章 一些我比较喜欢的统计子程序

44.1 子程序列表

44.2 第5章的(平均值和中位数)——X1和X2

44.3 第10章的平滑散点图——logit值和概率

44.4 第16章的平均相关系数——变量Var1、Var2、Var3

44.5 第29章的自助法十分位分析——数据来自表23.4(表44.2)

44.6 第42章的H幅度共有区域

44.7 选项排序、垂直输出的相关性分析

44.8 回应模型十分位分析

44.9 利润模型十分位分析

44.10 平滑时间序列分析数据(三变量的动态中位数)

44.11 大量高偏度变量的分析

译后记

统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)是2021年由机械工业出版社华章分社出版,作者[美] 布鲁斯·拉特纳。

得书感谢您对《统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
铁路文本大数据分析挖掘研究及应用 电子书
本书阐述了铁路文本大数据分析挖掘的理论、技术及应用,内容包括:绪论、文本大数据分析挖掘基础、文本大数据分析挖掘理论体系、常用分析与挖掘工具包、铁路文本大数据分析挖掘平台研究、铁路安全文本大数据应用案例、铁路应急管理文本大数据应用案例。
机器学习(第2版) 电子书
机器学习是人工智能的重要技术基础,涉及的内容十分广泛。本书涵盖了机器学习和深度学习的基础知识,主要包括机器学习的概述、统计学基础、分类、聚类、神经网络、贝叶斯网络、支持向量机、文本分析、分布式机器学习算法等经典的机器学习基础知识,还包括卷积神经网络、循环神经网络、生成对抗网络、目标检测、自编码器等深度学习的内容。此外,本书还介绍了机器学习的热门应用领域推荐系统以及强化学习等主题。本书深入浅出、内容
地球科学中的大数据分析与挖掘算法手册 电子书
本书以数据分析与挖掘思想为主线,深入剖析关联、分类、回归、聚类、顺序模式挖掘、深度学习以及异常检测等算法的原理、实现、相似算法、改进思路以及地学案例,具有很强的系统性、完整性以及落地性,可以作为各行业特别是地球科学领域中希望驾驭大数据并发掘其价值的科研人员和工程人员的参考书,读者既可以通过本书系统掌握大数据分析挖掘的思想方法,也可以将其作为算法工具书查阅。
大数据时代的数据挖掘 电子书
(1)内容全面,覆盖当前数据挖掘的主要应用。在介绍每个应用案例时,详细阐述应用的背景,该领域中数据的来源和特点,数据采集与预处理方式,应用领域中数据挖掘的任务和实施数据挖掘技术的难点。同时提供相应的数据挖掘算法分析、工具设计以及系统实现。 (2)条理清晰、便于理解。一方面,面向热爱和关心数据挖掘技术的学术界和工业界读者,帮助他们更好地理解研究的目的和应用的基础;另一方面,让没有太多相关技术背景的读者可以通过阅读本书能够了解数据挖掘的意义和价值,可以看出数据挖掘是如何被广泛地应用于实际案例并成为解决各种问题的核心工具。
淘宝网店大数据营销:数据分析、挖掘、高效转化 电子书
本书内容就是从零开始,教会读者如何获取网店各类数据,如何整理数据,如何分析这些数据,以此及时发现店铺的问题,找出解决问题的思路,并且主动出击,在店铺正常运营的基础上,提高店铺流量、转化率、客单价等指标,让网店的运营更上一层楼。在讲解过程中,凡是涉及工具软件的应用或者具体数据的分析之处,都会附上详细的步骤,图文并茂一步一步地进行讲解,真正做到手把手教会读者进行数据分析。本书是在校学生以及网店创业人员