精通Spark数据科学

精通Spark数据科学

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

精通Spark框架与应用,生产级数据科学解决方案。

内容简介

本书是一部专门介绍Spark的著作,你能从中学习到核心Spark API的所有内容并掌握如何应用框架中的库,但本书并不局限于讲解Spark框架本身,而是致力于深入研究如何使用Spark来提供生产级的数据科学解决方案。作者们凭借丰富的顶级数据科学业界经验,为我们指出大数据实战需要注意的技巧和初学者容易陷入的各种“坑”。本书让我们了解在不同的用户场景下,如何用Spark实现数据处理全流程。本书有丰富的示例代码,通过阅读本书相信读者会获益良多,并能够应对常见的大数据分析场景。

章节目录

版权信息

版 权

版权声明

内容提要

译者序

译者简介

原书序言

作者简介

审稿人简介

前 言

资源与支持

第1章 数据科学生态系统

1.1 大数据生态系统简介

1.1.1 数据管理

1.1.2 数据管理职责

1.1.3 合适的工具

1.2 数据架构

1.2.1 数据采集

1.2.2 数据湖

1.2.3 数据科学平台

1.2.4 数据访问

1.3 数据处理技术

Apache Spark的角色

1.4 配套工具

1.4.1 Apache HDFS

1.4.2 亚马逊S3

1.4.3 Apache Kafka

1.4.4 Apache Parquet

1.4.5 Apache Avro

1.4.6 Apache NiFi

1.4.7 Apache YARN

1.4.8 Apache Lucene

1.4.9 Kibana

1.4.10 Elasticsearch

1.4.11 Accumulo

1.5 小结

第2章 数据获取

2.1 数据管道

2.1.1 通用采集框架

2.1.2 GDELT数据集简介

2.2 内容登记

2.2.1 选择和更多选择

2.2.2 随流而行

2.2.3 元数据模型

2.2.4 Kibana仪表盘

2.3 质量保证

2.3.1 案例1——基本质量检查,无争用用户

2.3.2 案例2——进阶质量检查,无争用用户

2.3.3 案例3——基本质量检查,50%使用率争用用户

2.4 小结

第3章 输入格式与模式

3.1 结构化的生活是美好的生活

3.2 GDELT维度建模

GDELT模型

3.3 加载数据

3.3.1 模式敏捷性

3.3.2 GKG ELT

3.4 Avro

3.4.1 Spark-Avro方法

3.4.2 教学方法

3.4.3 何时执行Avro转换

3.5 Apache Parquet

3.6 小结

第4章 探索性数据分析

4.1 问题、原则与规划

4.1.1 理解EDA问题

4.1.2 设计原则

4.1.3 探索的总计划

4.2 准备工作

4.2.1 基于掩码的数据剖析简介

4.2.2 字符类掩码简介

4.2.3 构建基于掩码的剖析器

4.3 探索GDELT

探索GKG V2.1

4.4 小结

第5章 利用Spark进行地理分析

5.1 GDELT和石油

5.1.1 GDELT事件

5.1.2 GDELT GKG

5.2 制订行动计划

5.3 GeoMesa

5.3.1 安装

5.3.2 GDELT采集

5.3.3 GeoMesa采集

5.3.4 GeoHash

5.3.5 GeoServer

5.4 计量油价

5.4.1 使用GeoMesa查询API

5.4.2 数据准备

5.4.3 机器学习

5.4.4 朴素贝叶斯

5.4.5 结果

5.4.6 分析

5.5 小结

第6章 采集基于链接的外部数据

6.1 构建一个大规模的新闻扫描器

6.1.1 访问Web内容

6.1.2 与Spark集成

6.1.3 创建可扩展的生产准备库

6.2 命名实体识别

6.2.1 Scala库

6.2.2 NLP攻略

6.2.3 构建可扩展代码

6.3 GIS查询

6.3.1 GeoNames数据集

6.3.2 构建高效的连接

6.3.3 内容除重

6.4 名字除重

6.4.1 用Scalaz进行函数式编程

6.4.2 简单清洗

6.4.3 DoubleMetaphone算法

6.5 新闻索引仪表板

6.6 小结

第7章 构建社区

7.1 构建一个人物图谱

7.1.1 联系链

7.1.2 从Elasticsearch中提取数据

7.2 使用Accumulo数据库

7.2.1 设置Accumulo

7.2.2 单元级安全

7.2.3 迭代器

7.2.4 从Elasticsearch到Accumulo

7.2.5 从Accumulo读取

7.2.6 AccumuloGraphxInputFormat和EdgeWritable

7.2.7 构建图

7.3 社区发现算法

7.3.1 Louvain算法

7.3.2 加权社区聚类

7.4 GDELT数据集

7.4.1 Bowie 效应

7.4.2 较小的社区

7.4.3 使用Accumulo单元级的安全性

7.5 小结

第8章 构建推荐系统

8.1 不同的方法

8.1.1 协同过滤

8.1.2 基于内容的过滤

8.1.3 自定义的方法

8.2 信息不完整的数据

8.2.1 处理字节

8.2.2 创建可扩展的代码

8.2.3 从时域到频域

8.3 构建歌曲分析器

推销数据科学和推销纸杯蛋糕是一样的

8.4 构建一个推荐系统

8.4.1 PageRank算法

8.4.2 构建个性化的播放列表

8.5 扩大“蛋糕厂”规模

8.5.1 构建播放列表服务

8.5.2 应用Spark任务服务器

8.5.3 用户界面

8.6 小结

第9章 新闻词典和实时标记系统

9.1 土耳其机器人

9.1.1 人类智能任务

9.1.2 引导分类模型

9.1.3 懒惰、急躁、傲慢

9.2 设计Spark Streaming应用

9.2.1 两个架构的故事

9.2.2 Lambda架构的价值

9.2.3 Kappa架构的价值

9.3 消费数据流

9.3.1 创建GDELT数据流

9.3.2 创建Twitter数据流

9.4 处理Twitter数据

9.4.1 提取URL和主题标签

9.4.2 保存流行的主题标签

9.4.3 扩展缩短的URL

9.5 获取HTML内容

9.6 使用Elasticsearch作为缓存层

9.7 分类数据

9.7.1 训练朴素贝叶斯模型

9.7.2 确保线程安全

9.7.3 预测GDELT数据

9.8 Twitter土耳其机器人

9.9 小结

第10章 故事除重和变迁

10.1 检测近似重复

10.1.1 从散列开始第一步

10.1.2 站在“互联网巨人”的肩膀上

10.1.3 检测GDELT中的近似重复

10.1.4 索引GDELT数据库

10.2 构建故事

10.2.1 构建词频向量

10.2.2 维度灾难,数据科学之痛

10.2.3 优化KMeans

10.3 故事变迁

10.3.1 平衡态

10.3.2 随时间追踪故事

10.3.3 构建故事的关联

10.4 小结

第11章 情感分析中的异常检测

11.1 在Twitter上追踪美国大选

11.1.1 流式获取数据

11.1.2 成批获取数据

11.2 情感分析

11.2.1 格式化处理Twitter数据

11.2.2 使用斯坦福NLP

11.2.3 建立管道

11.3 使用Timely作为时间序列数据库

11.3.1 存储数据

11.3.2 使用Grafana可视化情感

11.4 Twitter与戈德温(Godwin)点

11.4.1 学习环境

11.4.2 对模型进行可视化

11.4.3 Word2Graph和戈德温点

11.5 进入检测讽刺的一小步

11.5.1 构建特征

11.5.2 检测异常

11.6 小结

第12章 趋势演算

12.1 研究趋势

12.2 趋势演算算法

12.2.1 趋势窗口

12.2.2 简单趋势

12.2.3 用户定义聚合函数

12.2.4 简单趋势计算

12.2.5 反转规则

12.2.6 FHLS条状图介绍

12.2.7 可视化数据

12.3 实际应用

12.3.1 算法特性

12.3.2 潜在的用例

12.4 小结

第13章 数据保护

13.1 数据安全性

13.1.1 存在的问题

13.1.2 基本操作

13.2 认证和授权

13.3 访问

13.4 加密

13.4.1 数据处于静态时

13.4.2 数据处于传输时

13.4.3 混淆/匿名

13.4.4 遮罩

13.4.5 令牌化

13.5 数据处置

13.6 Kerberos认证

13.6.1 用例1:Apache Spark在受保护的HDFS中访问数据

13.6.2 用例2:扩展到自动身份验证

13.6.3 用例3:从Spark连接到安全数据库

13.7 安全生态

13.7.1 Apache Sentry

13.7.2 RecordService

13.8 安全责任

13.9 小结

第14章 可扩展算法

14.1 基本原则

14.2 Spark架构

14.2.1 Spark的历史

14.2.2 动态组件

14.3 挑战

14.3.1 算法复杂性

14.3.2 数值异常

14.3.3 洗牌

14.3.4 数据模式

14.4 规划你的路线

迭代

14.5 设计模式和技术

14.5.1 Spark API

14.5.2 摘要模式

14.5.3 扩展并解决模式

14.5.4 轻量级洗牌

14.5.5 宽表模式

14.5.6 广播变量模式

14.5.7 组合器模式

14.5.8 集群优化

14.5.9 再分配模式

14.5.10 加盐键模式

14.5.11 二次排序模式

14.5.12 过滤过度模式

14.5.13 概率算法

14.5.14 选择性缓存

14.5.15 垃圾回收

14.5.16 图遍历

14.6 小结

精通Spark数据科学是2020年由人民邮电出版社出版,作者 (美) 安德鲁·摩根 (Andrew Morgan) 。

得书感谢您对《精通Spark数据科学》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
图解数据科学 电子书
解码数据科学的奥秘,驱动业务决策和创新。
Spark最佳实践 电子书
腾讯专家首次分享Spark最新实践,基于真实数据,用案例分析全面解读大数据应用设计!
精通Excel数据统计与分析 电子书
详细解释从公式含义到在Excel中实现的过程。
Spark编程基础(Scala版) 电子书
本书是厦门大学作者团队长期经验总结的结晶,是在厦门大学《大数据技术原理与应用》入门级大数据教材的基础之上编写的。为了确保教程质量,在编著出版纸质教材之前,实验室已经于2016年10月通过实验室官网免费发布共享了简化版的Spark在线教程和相关教学资源,同时,该在线教程也已经用于厦门大学计算机科学系研究生的大数据课程教学,并成为全国高校大数据课程教师培训交流班的授课内容。实验室根据读者对在线Spark教程的大量反馈意见以及教学实践中发现的问题,对Spark在线教程进行了多次修正和完善,所有这些前期准备工作,都为纸质教材的编著出版打下了坚实的基础。 披荆斩棘,在大数据丛林中开辟学习捷径 填沟削坎,为快速学习Spark 技术铺平道路 深入浅出,有效降低Spark 技术学习门槛 资源全面,构建全方位一站式在线服务体系
数亦有道:Python数据科学指南 电子书
本书以问题为导向,用具体应用场景讲明白如何选择、使用合适的数据科学工具。