Hadoop数据分析

Hadoop数据分析

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书旨在带领你了解Hadoop生态系统。

内容简介

本书内容分为两大部分。第一部分(第1章到第5章)从非常高的层次介绍分布式计算,讨论如何在集群上运行计算。第二部分(第6章到第10章)更加具体地关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。

作者简介

作者Benjamin Bengfort,数据科学家,目前正在马里兰大学攻读博士学位,方向为机器学习和分布式计算;熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。 Jenny Kim,经验丰富的大数据工程师,不仅进行商业软件的开发,在学术界也有所建树,在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前任职于Cloudera的Hue团队。

章节目录

版权信息

版权声明

O'Reilly Media, Inc. 介绍

业界评论

前言

本书目标

目标读者

阅读方式

内容概述

编程和示例代码

GitHub仓库

执行分布式作业

使用示例代码

反馈及作者联系方式

Safari® Books Online

联系我们

致谢

电子书

第一部分 分布式计算入门

第1章 数据产品时代

1.1 什么是数据产品

1.2 使用Hadoop构建大规模数据产品

1.3 数据科学流水线和Hadoop生态系统

1.4 小结

第2章 大数据操作系统

2.1 基本概念

2.2 Hadoop架构

2.3 使用分布式文件系统

2.4 使用分布式计算

2.5 向YARN提交MapReduce作业

2.6 小结

第3章 Python 框架和 Hadoop Streaming

3.1 Hadoop Streaming

3.2 Python的MapReduce框架

3.3 MapReduce进阶

3.4 小结

第4章 Spark 内存计算

4.1 Spark基础

4.2 基于PySpark的交互性Spark

4.3 编写Spark应用程序

4.4 小结

第5章 分布式分析和模式

5.1 键计算

5.2 设计模式

5.3 迈向最后一英里分析

5.4 小结

第二部分 大数据科学的工作流和工具

第6章 数据挖掘和数据仓储

6.1 Hive结构化数据查询

6.2 HBase

6.3 小结

第7章 数据采集

7.1 使用Sqoop导入关系数据

7.2 使用Flume获取流式数据

7.3 小结

第8章 使用高级 API 进行分析

8.1 Pig

8.2 Spark高级API

8.3 小结

第9章 机器学习

9.1 使用Spark进行可扩展的机器学习

9.2 小结

第10章 总结:分布式数据科学实战

10.1 数据产品生命周期

10.2 机器学习生命周期

10.3 小结

附录 A 创建 Hadoop 伪分布式开发环境

A.1 快速上手

A.2 设置Linux环境

A.2.1 创建Hadoop用户

A.2.2 配置SSH

A.2.3 安装Java

A.2.4 禁用IPv6

A.3 安装Hadoop

A.3.1 解压

A.3.2 环境

A.3.3 Hadoop配置

A.3.4 格式化NameNode

A.3.5 启动Hadoop

A.3.6 重启Hadoop

附录 B 安装 Hadoop 生态系统产品

B.1 打包的Hadoop发行版

B.2 自己安装Apache Hadoop生态系统产品

B.2.1 基本安装和配置步骤

B.2.2 Sqoop特定配置

B.2.3 Hive特定配置

B.2.4 HBase特定配置

B.2.5 安装Spark

术语表

关于作者

关于封面

Hadoop数据分析是2018年由人民邮电出版社·图灵出品出版,作者[美] Benjamin Bengfort。

得书感谢您对《Hadoop数据分析》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Hadoop大数据平台集群部署与开发 电子书
Hadoop大数据平台集群部署与开发课程是云计算的一门专业平台课。本教材可为参与大数据开发与处理等相关流程的技术人员提供有益参考,为其介绍大数据处理技术Hadoop以及Hadoop家族体系的其他核心成员:Zookeeper、HBase、Hive、Flume、Sqoop等。本教材以分类任务的形式,具体介绍了“这些成员”的概念及实际应用,具有较强的综合性和实践性强,内容涉及广泛,讲解深入透彻。
Hadoop大数据开发实战(慕课版) 电子书
本书共分11章,第1章对大数据及Hadoop进行总体介绍;第2章讲解了如何搭建Hadoop集群;第3-5章讲解了HDFS分布式文件系统、MapReduce分布式计算框架以及Zookeeper分布式协调服务;第6章讲解Hadoop2.0的新特性;第7-10章主要讲解了Hadoop生态圈中的相关辅助系统,包括Hive、HBase分布式存储系统、Flume、Saoop;第11章讲解了综合项目:电商精准营
大数据技术基础——基于Hadoop与Spark 电子书
将Hadoop和Spark组合起来进行剖析,呈现完整的大数据技术方案。
基于Hadoop与Spark的大数据开发实战 电子书
大数据技术让我们以一种前所未有的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,最终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数
Hadoop大数据开发基础(第2版)(微课版) 电子书
本书以任务为导向,较为系统地介绍Hadoop大数据技术及其生态系统组件Hive、HBase的相关知识。全书共8章,具体内容包括Hadoop介绍、Hadoop集群的搭建及配置、Hadoop基础操作、MapReduce入门编程、MapReduce进阶编程、Hive数据仓库、HBase分布式数据库,以及一个项目案例(电影网站用户影评分析)。本书的第2~7章包含实训与课后习题,读者可通过练习和操作实践,巩