白话大数据与机器学习

高扬

科学与自然类型

249千字字数

7 豆瓣评分

查阅电子书

手机扫码

微信扫一扫

关注微信公众号

因版权原因待上架

类似推荐

编辑推荐

资深大数据专家多年实战经验总结，拒绝晦涩，开启大数据与机器学习妙趣之旅。

内容简介

从行为脉络来看，本书基本上是从数据统计、数据指标理解、数据模型、聚类/分类与机器学习、数据应用、大数据框架补充知识，以及扩展讨论这样的角度来层层深入完成的。这种方式会给读者比较好的带入感，让大家——尤其是不擅长数学的读者降低对大数据与机器学习算法的恐惧感。如果读者朋友对排列组合、统计分布这些基础知识比较了解，完全可以考虑跳过这些部分直接去读后面更感兴趣的内容。为了调节阅读气氛，我们还尝试加入了一些漫画插图。为了让读者朋友能够更快地进行实践，我们几乎在每一个算法讲解后都配有Python或者SQL语言的实现部分。相信这些能够帮助大家更快、更轻松地阅读本书。

作者简介

作者高扬，金山软件西山居资深大数据架构师与大数据专家，有多年编程经验（多年日本和澳洲工作经验）和多年大数据架构设计与数据分析、处理经验，目前负责西山居的大数据产品市场战略与产品战略。负责西山居紫霞系统——大数据日志处理系统的系统架构与设计工作。

章节目录

版权信息

前言

第1章大数据产业

1.1 大数据产业现状

1.2 对大数据产业的理解

1.3 大数据人才

1.3.1 供需失衡

1.3.2 人才方向

1.3.3 环节和工具

1.3.4 门槛障碍

1.4 小结

第2章步入数据之门

2.1 什么是数据

2.2 什么是信息

2.3 什么是算法

2.4 统计、概率和数据挖掘

2.5 什么是商业智能

2.6 小结

第3章排列组合与古典概型

3.1 排列组合的概念

3.1.1 公平的决断——扔硬币

3.1.2 非古典概型

3.2 排列组合的应用示例

3.2.1 双色球彩票

3.2.2 购车摇号

3.2.3 德州扑克

3.3 小结

第4章统计与分布

4.1 加和值、平均值和标准差

4.1.1 加和值

4.1.2 平均值

4.1.3 标准差

4.2 加权均值

4.2.1 混合物定价

4.2.2 决策权衡

4.3 众数、中位数

4.3.1 众数

4.3.2 中位数

4.4 欧氏距离

4.5 曼哈顿距离

4.6 同比和环比

4.7 抽样

4.8 高斯分布

4.9 泊松分布

4.10 伯努利分布

4.11 小结

第5章指标

5.1 什么是指标

5.2 指标化运营

5.2.1 指标的选择

5.2.2 指标体系的构建

5.3 小结

第6章信息论

6.1 信息的定义

6.2 信息量

6.2.1 信息量的计算

6.2.2 信息量的理解

6.3 香农公式

6.4 熵

6.4.1 热力熵

6.4.2 信息熵

6.5 小结

第7章多维向量空间

7.1 向量和维度

7.1.1 信息冗余

7.1.2 维度

7.2 矩阵和矩阵计算

7.3 数据立方体

7.4 上卷和下钻

7.5 小结

第8章回归

8.1 线性回归

8.2 拟合

8.3 残差分析

8.4 过拟合

8.5 欠拟合

8.6 曲线拟合转化为线性拟合

8.7 小结

第9章聚类

9.1 K-Means算法

9.2 有趣模式

9.3 孤立点

9.4 层次聚类

9.5 密度聚类

9.6 聚类评估

9.6.1 聚类趋势

9.6.2 簇数确定

9.6.3 测定聚类质量

9.7 小结

第10章分类

10.1 朴素贝叶斯

10.1.1 天气的预测

10.1.2 疾病的预测

10.1.3 小结

10.2 决策树归纳

10.2.1 样本收集

10.2.2 信息增益

10.2.3 连续型变量

10.3 随机森林

10.4 隐马尔可夫模型

10.4.1 维特比算法

10.4.2 前向算法

10.5 支持向量机SVM

10.5.1 年龄和好坏

10.5.2 “下刀”不容易

10.5.3 距离有多远

10.5.4 N维度空间中的距离

10.5.5 超平面怎么画

10.5.6 分不开怎么办

10.5.7 示例

10.5.8 小结

10.6 遗传算法

10.6.1 进化过程

10.6.2 算法过程

10.6.3 背包问题

10.6.4 极大值问题

10.7 小结

第11章关联分析

11.1 频繁模式和Apriori算法

11.1.1 频繁模式

11.1.2 支持度和置信度

11.1.3 经典的Apriori算法

11.1.4 求出所有频繁模式

11.2 关联分析与相关性分析

11.3 稀有模式和负模式

11.4 小结

第12章用户画像

12.1 标签

12.2 画像的方法

12.2.1 结构化标签

12.2.2 非结构化标签

12.3 利用用户画像

12.3.1 割裂型用户画像

12.3.2 紧密型用户画像

12.3.3 到底“像不像”

12.4 小结

第13章推荐算法

13.1 推荐思路

13.1.1 贝叶斯分类

13.1.2 利用搜索记录

13.2 User-based CF

13.3 Item-based CF

13.4 优化问题

13.5 小结

第14章文本挖掘

14.1 文本挖掘的领域

14.2 文本分类

14.2.1 Rocchio算法

14.2.2 朴素贝叶斯算法

14.2.3 K-近邻算法

14.2.4 支持向量机SVM算法

14.3 小结

第15章人工神经网络

15.1 人的神经网络

15.1.1 神经网络结构

15.1.2 结构模拟

15.1.3 训练与工作

15.2 FANN库简介

15.3 常见的神经网络

15.4 BP神经网络

15.4.1 结构和原理

15.4.2 训练过程

15.4.3 过程解释

15.4.4 示例

15.5 玻尔兹曼机

15.5.1 退火模型

15.5.2 玻尔兹曼机

15.6 卷积神经网络

15.6.1 卷积

15.6.2 图像识别

15.7 深度学习

15.8 小结

第16章大数据框架简介

16.1 著名的大数据框架

16.2 Hadoop框架

16.2.1 MapReduce原理

16.2.2 安装Hadoop

16.2.3 经典的WordCount

16.3 Spark框架

16.3.1 安装Spark

16.3.2 使用Scala计算WordCount

16.4 分布式列存储框架

16.5 PrestoDB——神奇的CLI

16.5.1 Presto为什么那么快

16.5.2 安装Presto

16.6 小结

第17章系统架构和调优

17.1 速度——资源的配置

17.1.1 思路一：逻辑层面的优化

17.1.2 思路二：容器层面的优化

17.1.3 思路三：存储结构层面的优化

17.1.4 思路四：环节层面的优化

17.1.5 资源不足

17.2 稳定——资源的可用

17.2.1 借助云服务

17.2.2 锁分散

17.2.3 排队

17.2.4 谨防“雪崩”

17.3 小结

第18章数据解读与数据的价值

18.1 运营指标

18.1.1 互联网类型公司常用指标

18.1.2 注意事项

18.2 AB测试

18.2.1 网页测试

18.2.2 方案测试

18.2.3 灰度发布

18.2.4 注意事项

18.3 数据可视化

18.3.1 图表

18.3.2 表格

18.4 多维度——大数据的灵魂

18.4.1 多大算大

18.4.2 大数据网络

18.4.3 去中心化才能活跃

18.4.4 数据会过剩吗

18.5 数据变现的场景

18.5.1 数据价值的衡量的讨论

18.5.2 场景1：征信数据

18.5.3 场景2：宏观数据

18.5.4 场景3：画像数据

18.6 小结

附录A VMware Workstation的安装

附录B CentOS虚拟机的安装方法

附录C Python语言简介

附录D Scikit-learn库简介

附录E FANN for Python安装

附录F 群众眼中的大数据

写作花絮

参考文献

白话大数据与机器学习是2016年由机械工业出版社出版,作者高扬。

得书感谢您对《白话大数据与机器学习》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。

得书 - 好书推荐、正版图书免费阅读