大数据基础与应用

大数据基础与应用

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

书中有大量的图片说明和实例讲解,书中的典型应用案例部分涵盖了数据采集、数据分析、数据转换等。

内容简介

本书共分为12章,第1章介绍了大数据产生的背景、大数据的结构与特征、大数据相关概念、大数据可视化、大数据相关工具与发展前景。第2-9章为基础知识部分,介绍了大数据的生态系统全貌,重点对计算平台Hadoop、分布式文件系统HDFS、计算框架MapReduce、开源数据库HBase、典型工具NoSQL、集群计算Spark、流计算Storm和分布式协调系统Zookeeper等相关技术进行了详细介绍,通过实例使读者具备解决实际问题的能力。第10-12章为典型应用案例部分,介绍了大数据分析应用系统的开发过程,涵盖了数据采集、数据分析、数据转换和结果显示的整个交互式大数据处理和分析流程。

本书内容丰富、条理清晰、示例指导性强,读者可以通过章后的习题对所学内容作进一步巩固,熟练掌握大数据基本原理、工程应用场景及实验分析技巧。本书适合作为大中专院校数据科学与大数据专业、计算机类专业的教材,也可以作为读者自学或者科研技术人员的参考书。

章节目录

版权信息

前言

第1章 初识大数据

1.1 大数据产生的背景

1.2 大数据的结构与特征

1.2.1 大数据的结构

1.2.2 大数据的特征

1.3 大数据相关概念

1.3.1 大数据关键技术

1.3.2 数据类型与数据管理

1.3.3 数据仓库

1.3.4 数据挖掘

1.4 大数据可视化

1.4.1 什么是数据可视化

1.4.2 数据可视化的工具与方法

1.4.3 数据可视化的建模

1.4.4 数据可视化分类

1.5 大数据相关工具

1.5.1 Hadoop

1.5.2 R语言

1.5.3 Python语言

1.5.4 RapidMiner

1.5.5 Tableau

1.6 大数据时代的新机遇

1.6.1 数据价值

1.6.2 应用价值

1.6.3 发展前景

1.7 本章小结

1.8 习题

第2章 大数据处理架构Hadoop

2.1 Hadoop简介

2.2 Hadoop发展史及特点

2.3 Hadoop体系结构

2.3.1 HDFS体系结构

2.3.2 MapReduce体系结构

2.4 配置Linux环境

2.4.1 安装VMware12虚拟机

2.4.2 部署CentOS 64位操作系统

2.4.3 配置网络

2.4.4 Linux终端

2.5 Hadoop环境搭建

2.5.1 JDK安装和测试

2.5.2 Hadoop安装和配置

2.5.3 SSH免密码配置

2.6 Hadoop关键组件

2.6.1 HDFS

2.6.2 HBase

2.6.3 MapReduce

2.6.4 Hive

2.6.5 Pig

2.6.6 Mahout

2.6.7 ZooKeeper

2.6.8 Flume

2.6.9 Sqoop

2.6.10 Ambari

2.7 本章小结

2.8 习题

第3章 分布式文件系统HDFS

3.1 HDFS概念

3.1.1 HDFS简介

3.1.2 HDFS相关概念

3.2 HDFS体系结构

3.3 HDFS文件存储机制

3.4 HDFS的数据读写过程

3.4.1 读数据的过程

3.4.2 写数据的过程

3.5 HDFS应用实践

3.5.1 HDFS常用命令

3.5.2 HDFS的Web界面

3.5.3 HDFS常用Java API及应用实例

3.6 本章小结

3.7 习题

第4章 计算系统MapReduce

4.1 MapReduce概述

4.1.1 MapReduce简介

4.1.2 MapReduce数据类型与格式

4.1.3 数据类型Writable接口

4.1.4 Hadoop序列化与反序列化机制

4.2 MapReduce架构

4.2.1 数据分片

4.2.2 MapReduce的集群行为

4.2.3 MapReduce作业执行过程

4.3 MapReduce接口类

4.3.1 MapReduce输入的处理类

4.3.2 MapReduce输出的处理类

4.4 MapReduce应用案例

4.4.1 WordCount代码分析

4.4.2 WordCount处理过程

4.5 本章小结

4.6 习题

第5章 分布式数据库HBase

5.1 初识HBase

5.1.1 HBase的来源

5.1.2 HBase的特点

5.1.3 HBase的系统架构

5.2 HBase安装与配置

5.2.1 HBase运行模式分类

5.2.2 Hbase的安装

5.2.3 HBase基本API实例

5.2.4 HBase Shell工具使用

5.3 Hbase的存储结构

5.3.1 存储结构中重要模块

5.3.2 HBase物理存储和逻辑视图

5.3.3 数据坐标

5.4 HBase的实现原理

5.4.1 Hbase的读写流程

5.4.2 表和Region

5.4.3 Region的定位

5.5 HBase表结构设计

5.5.1 列族定义

5.5.2 表设计原则

5.5.3 Rowkey设计

5.6 本章小结

5.7 习题

第6章 NoSQL数据库

6.1 NoSQL简介

6.1.1 NoSQL的含义

6.1.2 NoSQL的产生

6.1.3 NoSQL的特点

6.2 NoSQL技术基础

6.2.1 一致性策略

6.2.2 数据分区与放置策略

6.2.3 数据复制与容错技术

6.2.4 数据的缓存技术

6.3 NoSQL的类型

6.3.1 键值存储

6.3.2 列存储

6.3.3 面向文档存储

6.3.4 图形存储

6.4 NoSQL典型工具

6.4.1 Redis

6.4.2 CouchDB

6.5 本章小结

6.6 习题

第7章 集群计算Spark

7.1 深入理解Spark

7.1.1 Spark简介

7.1.2 Spark与Hadoop差异

7.1.3 Spark的适用场景

7.1.4 Spark成功案例

7.2 Spark的安装与配置

7.2.1 安装模式

7.2.2 Spark的安装

7.2.3 启动并验证Spark

7.3 Spark程序的运行模式

7.3.1 Spark on Yarn-cluster

7.3.2 Spark on Yarn-client

7.4 Spark编程实践

7.4.1 启动Spark Shell

7.4.2 Spark RDD基本操作

7.4.3 Spark应用程序

7.5 Spark的三个典型应用案例

7.5.1 词频数统计

7.5.2 人口的平均年龄

7.5.3 搜索频率最高的K个关键词

7.6 本章小结

7.7 习题

第8章 流计算Storm

8.1 流计算概述

8.1.1 流计算的概念

8.1.2 流计算与Hadoop

8.1.3 流计算框架

8.2 开源流计算框架Storm

8.2.1 Storm简介

8.2.2 Storm的特点

8.2.3 Storm的设计思想

8.2.4 Storm的框架设计

8.3 实时计算处理流程

8.3.1 数据实时采集和计算

8.3.2 数据查询服务

8.4 典型的流引擎Spark Streaming

8.4.1 Spark Streaming

8.4.2 Storm和Spark Streaming框架对比

8.5 流计算的应用案例

8.5.1 技术架构

8.5.2 技术实现

8.5.3 项目预案

8.6 本章小结

8.7 习题

第9章 分布式协调系统ZooKeeper

9.1 ZooKeeper概述

9.1.1 ZooKeeper简介

9.1.2 ZooKeeper数据模型

9.1.3 ZooKeeper特征

9.1.4 ZooKeeper工作原理

9.2 ZooKeeper的安装和配置

9.2.1 安装ZooKeeper

9.2.2 配置ZooKeeper

9.2.3 运行ZooKeeper

9.3 ZooKeeper的简单操作及步骤

9.4 ZooKeeper Shell操作

9.4.1 ZooKeeper服务命令

9.4.2 ZooKeeper客户端命令

9.5 ZooKeeper API操作

9.6 ZooKeeper应用案例

9.6.1 使用场景及结构

9.6.2 编码实现

9.7 本章小结

9.8 习题

第10章 销售数据分析系统

10.1 数据采集

10.1.1 在Windows下安装JDK

10.1.2 在Windows下安装Eclipse

10.1.3 将WebCollector项目导入Eclipse

10.1.4 在Windows下安装MySQL

10.1.5 连接JDBC

10.1.6 运行爬虫程序

10.2 在HBase集群上准备数据

10.2.1 将数据导入到MySQL

10.2.2 将MySQL表中的数据导入到HBase表中

10.3 安装Phoenix中间件

10.3.1 Phoenix架构

10.3.2 解压安装Phoenix

10.3.3 Phoenix环境配置

10.3.4 使用Phoenix

10.4 基于Web的前端开发

10.4.1 将Web前端项目导入Eclipse

10.4.2 安装Tomcat

10.4.3 在Eclipse中配置Tomcat

10.4.4 在Web浏览器中查看执行结果

10.5 本章小结

10.6 习题

第11章 交互式数据处理

11.1 数据预处理

11.1.1 查看数据

11.1.2 数据扩展

11.1.3 数据过滤

11.1.4 数据上传

11.2 创建数据仓库

11.2.1 创建数据仓库的基本命令

11.2.2 创建Hive区分表

11.3 数据分析

11.3.1 基本统计

11.3.2 用户行为分析

11.3.3 实时数据

11.4 本章小结

11.5 习题

第12章 协同过滤推荐系统

12.1 推荐算法概述

12.1.1 基于人口统计学的推荐

12.1.2 基于内容的推荐

12.1.3 基于协同过滤的推荐

12.2 协同过滤推荐算法分析

12.2.1 基于用户的协同过滤推荐

12.2.2 基于物品的协同过滤推荐

12.3 Spark MLlib推荐算法应用

12.3.1 ALS算法原理

12.3.2 ALS的应用设计

12.4 本章小结

12.5 习题

附录 课后习题答案

参考文献

大数据基础与应用是2019年由机械工业出版社出版,作者王健。

得书感谢您对《大数据基础与应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Oracle数据库基础与应用教程 电子书
本书全面讲述了Oracle数据库的日常管理工作内容。全书共14章,包含Oracle简介和安装、Oracle客户端、管理Oracle环境、Oracle体系结构、管理Oracle存储结构、SQL语言、表、约束、视图、同义词和序列、索引、实现数据库安全、DataPump数据导出和导入、数据库备份和恢复。每章结尾提供适量的选择题、简答题和操作题,通过练习和操作实践,帮助读者巩固所学内容。本书适合Oracl
大数据技术与应用基础项目教程 电子书
全书共十个项目,除了项目一介绍大数据基础理论外,其余项目均以实战为主线,内容循序渐进,逐步深入,围绕大数据技术的应用层层展开。内容主要包括大数据的基本概念、Ubuntu及服务安装配置、Hadoop集群部署、MapReduce编程、HBase数据库部署与应用、Hive数据仓库安装与应用、Pig数据分析、Sqoop数据迁移、Spark部署及数据分析等知识,最后以大数据技术的具体应用介绍了MapRedu
数据采集及预处理基础与应用 电子书
本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,包括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境部署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。本书采用任务式编写形式,将大数据预处理技术的理论和实现分解到一个个任务中,融入到一个个典型案例中,让读者在完成各任务的同时掌握和理解相关内容。本书
Access 2016数据库基础与应用教程 电子书
本书介绍使用Access2016数据库管理系统创建数据库、创建数据库的各种对象(包括表、查询、窗体、报表、宏和模块),以及VBA编程、DAO编程和ADO编程的方法,各章后面均配置了相应的习题和上机实验。
电力大数据基础平台建设与应用实践 电子书
本书围绕电力大数据平台的建设与使用,从大数据平台体系架构、基础平台建设与实施、典型业务场景顶层设计和实际业务应用等方面开展论述。