大数据实验手册

大数据实验手册

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

权威教材《云计算》和《大数据》的实践动手篇。

内容简介

本书涵盖大数据专业经典的40个实验,每一个实验给出具体的目的、要求、原理,并给出详细的实验步骤和试验程序。具体包括HDFS实验、YARN实验、MapReduce实验、Hive实验、Spark实验、ZooKeeper实验、HBase实验、Storm实验等等。

作者简介

主编刘鹏,清华大学博士,解放军理工大学教授、学科带头人,中国云计算专家委员会委员。主要研究方向为信息网格和云计算,完成科研课题18项,发表论文70余篇,获部级科技进步奖6项。曾夺得国际计算机排序比赛冠军,并二次夺得全国高校科技比赛最高奖,获“全军十大学习成才标兵”、“南京十大杰出青年”和“清华大学学术新秀”等称号。2002年首倡的“网格计算池”和2003年研发的“反垃圾邮件网格”分别为云计算和云安全的前身。创办了知名的中国网格和中国云计算网站。

章节目录

版权信息

内容简介

编写组

总序

前言

实验一 大数据实验一体机基础操作

1.1 实验目的

1.2 实验要求

1.3 实验原理

1.3.1 大数据实验一体机

1.3.2 Linux基本命令

1.3.3 vi编辑器

1.3.4 SSH免密认证

1.3.5 Java基本命令

1.3.6 Eclipse集成开发环境

1.4 实验步骤

1.4.1 搭建集群服务器

1.4.2 使用SSH工具登录每台服务器

1.4.3 添加域名映射

1.4.4 配置SSH免密登录

1.4.5 在client服务器开发Java Helloworld程序

1.4.6 使用Eclipse开发Java Helloworld程序

实验二 HDFS实验:部署HDFS

2.1 实验目的

2.2 实验要求

2.3 实验原理

2.3.1 分布式文件系统

2.3.2 HDFS

2.3.3 HDFS基本命令

2.3.4 HDFS适用场景

2.4 实验步骤

2.4.1 在master服务器上确定存在Hadoop安装目录

2.4.2 确认集群服务器之间可SSH免密登录

2.4.3 修改HDFS配置文件

2.4.4 启动HDFS

2.4.5 通过查看进程的方式验证HDFS启动成功

2.4.6 使用client上传文件

实验三 HDFS实验:读写HDFS文件

3.1 实验目的

3.2 实验要求

3.3 实验原理

3.3.1 Java Classpath

3.3.2 Eclipse Hadoop插件

3.4 实验步骤

3.4.1 配置client服务器classpath

3.4.2 在client服务器编写HDFS写程序

3.4.3 编译并打包HDFS写程序

3.4.4 执行HDFS写程序

3.4.5 在client服务器编写HDFS读程序

3.4.6 编译并打包HDFS读程序

3.4.7 执行HDFS读程序

3.4.8 安装与配置Eclipse Hadoop插件

3.4.9 使用Eclipse开发并打包HDFS写文件程序

3.4.10 上传HDFS写文件程序jar包并执行

3.4.11 使用Eclipse开发并打包HDFS读文件程序

3.4.12 上传HDFS读文件程序jar包并执行

实验四 YARN实验:部署YARN集群

4.1 实验目的

4.2 实验要求

4.3 实验原理

4.3.1 YARN概述

4.3.2 YARN运行流程

4.4 实验步骤

4.4.1 在master机上配置YARN

4.4.2 统一启动YARN

4.4.3 验证YARN启动成功

4.4.4 在client机上提交DistributedShell任务

4.4.5 在client机上提交MapReduce型任务

4.5 实验结果

实验五 MapReduce实验:单词计数

5.1 实验目的

5.2 实验要求

5.3 实验原理

5.3.1 MapReduce编程

5.3.2 Java API解析

5.4 实验步骤

5.4.1 启动Hadoop

5.4.2 验证HDFS上没有WordCount的文件夹

5.4.3 上传数据文件到HDFS

5.4.4 编写MapReduce程序

5.4.5 使用Eclipse开发工具将该代码打包

5.5 实验结果

5.5.1 程序运行成功控制台上的显示内容

5.5.2 在HDFS上查看结果

实验六 MapReduce实验:二次排序

6.1 实验目的

6.2 实验要求

6.3 实验原理

6.4 实验步骤

6.4.1 编写程序

6.4.2 打包提交

6.5 实验结果

6.5.1 输入数据

6.5.2 执行结果

实验七 MapReduce实验:计数器

7.1 实验目的

7.2 实验要求

7.3 实验背景

7.3.1 MapReduce计数器是什么?

7.3.2 MapReduce计数器能做什么?

7.3.3 内置计数器

7.3.4 计数器使用

7.3.5 自定义计数器

7.4 实验步骤

7.4.1 实验分析设计

7.4.2 编写程序

7.4.3 打包并提交

7.5 实验结果

7.5.1 输入数据

7.5.2 输出显示

实验八 MapReduce实验:Join操作

8.1 实验目的

8.2 实验要求

8.3 实验背景

8.3.1 概述

8.3.2 原理

8.4 实验步骤

8.4.1 准备阶段

8.4.2 编写程序

8.4.3 打包并提交

8.5 实验结果

8.5.1 输入数据

8.5.2 输出显示

实验九 MapReduce实验:分布式缓存

9.1 实验目的

9.2 实验要求

9.3 实验步骤

9.3.1 准备数据

9.3.2 上传数据

9.3.3 编写代码

9.3.4 执行代码

9.3.5 查看结果

9.4 实验结果

实验十 Hive实验:部署Hive

10.1 实验目的

10.2 实验要求

10.3 实验原理

10.4 实验步骤

10.4.1 安装部署

10.4.2 配置HDFS

10.4.3 启动Hive

10.5 实验结果

10.5.1 启动结果

10.5.2 Hive基本命令

实验十一 Hive实验:新建Hive表

11.1 实验目的

11.2 实验要求

11.3 实验原理

11.4 实验步骤

11.4.1 启动Hive

11.4.2 创建表

11.4.3 显示表

11.4.4 显示表列

11.4.5 更改表

11.4.6 删除表(或列)

11.5 实验结果

实验十二 Hive实验:Hive分区

12.1 实验目的

12.2 实验要求

12.3 实验原理

12.4 实验步骤

12.4.1 启动Hadoop集群

12.4.2 用命令进入Hive客户端

12.4.3 通过HQL语句进行实验

12.5 实验结果

实验十三 Spark实验:部署Spark集群

13.1 实验目的

13.2 实验要求

13.3 实验原理

13.3.1 Spark简介

13.3.2 Spark适用场景

13.4 实验步骤

13.4.1 配置Spark集群

13.4.2 配置HDFS

13.4.3 提交Spark任务

13.5 实验结果

13.5.1 进程查看

13.5.2 验证WebUI

13.5.3 SparkWordcount程序执行

实验十四 Spark实验:SparkWordCount

14.1 实验目的

14.2 实验要求

14.3 实验原理

14.3.1 Scala是兼容的

14.3.2 Scala是简洁的

14.3.3 Scala是高级的

14.3.4 Scala是静态类型的

14.4 实验步骤

14.5 实验结果

实验十五 Spark实验:RDD综合实验

15.1 实验目的

15.2 实验要求

15.3 实验原理

15.4 实验步骤

15.4.1 distinct 去除RDD内的重复数据

15.4.2 foreach 遍历RDD内的数据

15.4.3 first取得RDD中的第一个数据

15.4.4 max 取得RDD中的最大的数据

15.4.5 intersection 返回两个RDD重叠的数据

15.5 实验结果

实验十六 Spark实验:Spark综例

16.1 实验目的

16.2 实验要求

16.3 实验原理

16.3.1 Scala

16.3.2 Spark-shell

16.4 实验步骤

16.4.1 启动Spark-shell

16.4.2 编写并执行Scala代码

16.4.3 退出Spark-shell

16.4.4 查看执行结果

实验十七 Spark实验:Spark SQL

17.1 实验目的

17.2 实验要求

17.3 实验原理

17.4 实验步骤

17.5 实验结果

实验十八 Spark实验:Spark Streaming

18.1 实验目的

18.2 实验要求

18.3 实验原理

18.3.1 Spark Streaming架构

18.3.2 Spark Streaming编程模型

18.3.3 Spark Streaming典型案例

18.4 实验步骤

18.5 实验结果

实验十九 Spark实验:GraphX

19.1 实验目的

19.2 实验要求

19.3 实验原理

19.4 实验步骤

19.4.1 在Intellij IDEA 中安装Scala的插件

19.4.2 新建Scala Module

19.4.3 添加maven依赖

19.4.4 新建Scala程序

19.4.5 程序运行

19.5 实验结果

实验二十 部署ZooKeeper

20.1 实验目的

20.2 实验要求

20.3 实验原理

20.4 实验步骤

20.4.1 安装JDK

20.4.2 修改ZooKeeper配置文件

20.4.3 启动ZooKeeper集群

20.5 实验结果

实验二十一 ZooKeeper进程协作

21.1 实验目的

21.2 实验要求

21.3 实验原理

21.4 实验步骤

21.4.1 启动ZooKeeper集群

21.4.2 导入jar包

21.4.3 编写Java代码

21.4.4 做成jar包

21.5 实验结果

实验二十二 部署HBase

22.1 实验目的

22.2 实验要求

22.3 实验原理

22.4 实验步骤

22.5 实验结果

实验二十三 新建HBase表

23.1 实验目的

23.2 实验要求

23.3 实验原理

23.4 实验步骤

23.5 实验结果

实验二十四 部署Storm

24.1 实验目的

24.2 实验要求

24.3 实验原理

24.4 实验步骤

24.5 实验结果

实验二十五 实时WordCountTopology

25.1 实验目的

25.2 实验要求

25.3 实验原理

25.3.1 Topologies

25.3.2 Spouts

25.3.3 Bolts

25.4 实验步骤

25.5 实验结果

实验二十六 文件数据Flume至HDFS

26.1 实验目的

26.2 实验要求

26.3 实验原理

26.3.1 Flume的特点

26.3.2 Flume的可靠性

26.4 实验步骤

26.5 实验结果

实验二十七 Kafka订阅推送示例

27.1 实验目的

27.2 实验要求

27.3 实验原理

27.3.1 Kafka简介

27.3.2 Kafka使用场景

27.4 实验步骤

27.4.1 安装ZooKeeper集群

27.4.2 安装Kafka集群

27.4.3 验证消息推送

27.5 实验结果

实验二十八 Pig版WordCount

28.1 实验目的

28.2 实验要求

28.3 实验原理

28.4 实验步骤

28.5 实验结果

实验二十九 Redis部署与简单使用

29.1 实验目的

29.2 实验要求

29.3 实验原理

29.3.1 CentOS 简介

29.3.2 CentOS与RHEL关系

29.3.3 make简介

29.3.4 Redis简介

29.4 实验步骤

29.4.1 安装配置启动

29.4.2 使用Redis

29.5 实验结果

实验三十 MapReduce与Spark读写Redis

30.1 实验目的

30.2 实验要求

30.3 实验原理

30.4 实验步骤

30.4.1 MapReduce读取Redis

30.4.2 Spark读取Redis

30.5 实验结果

30.5.1 MapReduce读取Redis实验

30.5.2 Spark读取Redis实验

实验三十一 MongoDB实验:读写MongoDB

31.1 实验目的

31.2 实验要求

31.3 实验原理

31.4 实验步骤

31.4.1 启动MongoDB

31.4.2 连接使用MongoDB

31.4.3 连接启动MongoDB的Shell,执行一些简单命令

31.5 实验结果

实验三十二 LevelDB实验:读写LevelDB

32.1 实验目的

32.2 实验要求

32.3 实验原理

32.4 实验步骤

32.4.1 使用C++代码建立数据库连接

32.4.2 写入数据

32.4.3 读取数据

32.4.4 删除数据

32.4.5 关闭连接

32.4.6 完整的代码

32.5 实验结果

实验三十三 Mahout实验:K-Means

33.1 实验目的

33.2 实验要求

33.3 实验原理

33.3.1 Mahout简介

33.3.2 Mahout发展

33.3.3 Mahout特性

33.3.4 K-Means算法概要

33.3.5 K-Means算法存在的问题

33.3.6 K-Means算法优点

33.3.7 K-Means算法缺点

33.3.8 K-Means算法应用

33.4 实验步骤

33.4.1 添加临时JAVA_HOME环境变量

33.4.2 建立HDFS目录

33.4.3 实验数据准备

33.4.4 提交Mahout的K-Means程序

33.5 实验结果

实验三十四 使用Spark实现K-Means

34.1 实验目的

34.2 实验要求

34.3 实验原理

34.4 实验步骤

34.4.1 添加临时JAVA_HOME环境变量

34.4.2 上传训练数据集

34.4.3 训练SVM模型

34.5 实验结果

实验三十五 使用Spark实现SVM

35.1 实验目的

35.2 实验要求

35.3 实验原理

35.3.1 SVM算法介绍

35.3.2 SVM算法原理

35.4 实验步骤

35.4.1 添加临时JAVA_HOME环境变量

35.4.2 上传训练数据集

35.4.3 训练SVM模型

35.5 实验结果

实验三十六 使用Spark实现FP-Growth

36.1 实验目的

36.2 实验要求

36.3 实验原理

36.3.1 FP-Growth算法简介

36.3.2 FP-Growth算法流程

36.4 实验步骤

36.4.1 添加临时JAVA_HOME环境变量

36.4.2 上传训练数据集

36.4.3 训练SVM模型

36.5 实验结果

实验三十七 综合实战:车牌识别

37.1 实验目的

37.2 实验要求

37.3 实验步骤

37.3.1 编写程序

37.3.2 环境准备

37.3.3 打包提交

37.4 实验结果

37.4.1 输入数据

37.4.2 执行结果

实验三十八 综合实战:搜索引擎

38.1 实验目的

38.2 实验要求

38.3 实验步骤

38.3.1 新建Java项目

38.3.2 新建JavaWeb项目

38.3.3 网页扒取

38.3.4 建立关键词索引

38.3.5 关键词搜索

38.4 实验结果

实验三十九 综合实战:推荐系统

39.1 实验目的

39.2 实验要求

39.3 实验步骤

39.3.1 试验原理概述

39.3.2 数据集准备

39.3.3 代码实现

39.4 实验结果

实验四十 综合实战:环境大数据

40.1 实验目的

40.2 实验要求

40.3 实验原理

40.4 实验步骤

40.4.1 分析数据文件

40.4.2 将数据文件上传至HDFS

40.4.3 编写月平均气温统计程序

40.4.4 查看月平均气温统计结果

40.4.5 编写每日空气质量统计程序

40.4.6 查看每日空气质量统计结果

40.4.7 将每日空气质量统计文件进行整合

40.4.8 编写各空气质量天数统计程序

40.4.9 查看各空气质量天数统计结果

实验四十一 综合实战:智能硬件大数据托管

41.1 实验目的

41.2 实验要求

41.3 实验原理

41.4 实验步骤

41.4.1 万物云平台相关注册

41.4.2 建表——用于存储智能硬件的数据

41.4.3 智能硬件接入平台

41.4.4 数据上传

41.4.5 数据查询

41.4.6 简单的数据分析

41.5 实验结果

实验四十二 综合实战:贷款风险评估

42.1 实验目的

42.2 实验要求

42.3 实验原理

42.3.1 分类过程及评估指标

42.3.2 spark-submit使用详解

42.4 实验相关

42.4.1 实验环境

42.4.2 实验数据

42.4.3 实验步骤

42.5 实验结果

大数据实验手册是2017年由电子工业出版社出版,作者刘鹏。

得书感谢您对《大数据实验手册》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Hadoop大数据开发案例教程与项目实战(在线实验+在线自测) 电子书
本书是一本Hadoop学习入门参考书,全书共11章,分为基础篇和提高篇两部分。基础篇包括第1~6章,具体包括Hadoop概述、Hadoop基础环境配置、分布式存储HDFS、计算系统MapReduce、计算模型Yarn、数据云盘。提高篇包括第7~11章,具体包括协调系统Zookeeper、Hadoop数据库Hbase、Hadoop数据仓库Hive、Hadoop数据采集Flume、OTA离线数据分析平
结核病实验室质量保证手册 电子书
涵盖传统细菌学和分子生物学技术应用时的室内质量控制和室间质量保证,为从事结核病的人员提供最新、最权威的质量要求和数据信息。
简明神经生物学实验技术手册 电子书
用简洁的文字、公式和图表,言简意赅地将生物学领域常用研究方法的原理、应用、步骤、配方、结果分析等内容编写成为袖珍使用手册。
实验室意外事件应急处置手册 电子书
收集整理了国内外各类典型的实验室意外事件,分析其主要原因,提供一套较完善的实验室内易发意外事件的应对及预防措施。
税法实验 电子书
本书是与《税务会计》配套的实训教材,按照税务实验课程教学目标,强调增值税、消费税、企业所得税、个人所得税、房产税等税法知识的掌握,选取了“税务登记、纳税申报、税款征收”等环节进行模拟实验,辅以相关的税收征管法规,作为模拟过程中的法律依据。本书在编写的整体设计思路上,注重教、学、训、练、用的结合;在内容的编排上着重以培养学生理论联系实际的能力为原则,关注会计实务,强调从事会计工作所需的基本知识和能力