类似推荐
编辑推荐
权威教材《云计算》和《大数据》的实践动手篇。
内容简介
本书涵盖大数据专业经典的40个实验,每一个实验给出具体的目的、要求、原理,并给出详细的实验步骤和试验程序。具体包括HDFS实验、YARN实验、MapReduce实验、Hive实验、Spark实验、ZooKeeper实验、HBase实验、Storm实验等等。
作者简介
主编刘鹏,清华大学博士,解放军理工大学教授、学科带头人,中国云计算专家委员会委员。主要研究方向为信息网格和云计算,完成科研课题18项,发表论文70余篇,获部级科技进步奖6项。曾夺得国际计算机排序比赛冠军,并二次夺得全国高校科技比赛最高奖,获“全军十大学习成才标兵”、“南京十大杰出青年”和“清华大学学术新秀”等称号。2002年首倡的“网格计算池”和2003年研发的“反垃圾邮件网格”分别为云计算和云安全的前身。创办了知名的中国网格和中国云计算网站。
章节目录
版权信息
内容简介
编写组
总序
前言
实验一 大数据实验一体机基础操作
1.1 实验目的
1.2 实验要求
1.3 实验原理
1.3.1 大数据实验一体机
1.3.2 Linux基本命令
1.3.3 vi编辑器
1.3.4 SSH免密认证
1.3.5 Java基本命令
1.3.6 Eclipse集成开发环境
1.4 实验步骤
1.4.1 搭建集群服务器
1.4.2 使用SSH工具登录每台服务器
1.4.3 添加域名映射
1.4.4 配置SSH免密登录
1.4.5 在client服务器开发Java Helloworld程序
1.4.6 使用Eclipse开发Java Helloworld程序
实验二 HDFS实验:部署HDFS
2.1 实验目的
2.2 实验要求
2.3 实验原理
2.3.1 分布式文件系统
2.3.2 HDFS
2.3.3 HDFS基本命令
2.3.4 HDFS适用场景
2.4 实验步骤
2.4.1 在master服务器上确定存在Hadoop安装目录
2.4.2 确认集群服务器之间可SSH免密登录
2.4.3 修改HDFS配置文件
2.4.4 启动HDFS
2.4.5 通过查看进程的方式验证HDFS启动成功
2.4.6 使用client上传文件
实验三 HDFS实验:读写HDFS文件
3.1 实验目的
3.2 实验要求
3.3 实验原理
3.3.1 Java Classpath
3.3.2 Eclipse Hadoop插件
3.4 实验步骤
3.4.1 配置client服务器classpath
3.4.2 在client服务器编写HDFS写程序
3.4.3 编译并打包HDFS写程序
3.4.4 执行HDFS写程序
3.4.5 在client服务器编写HDFS读程序
3.4.6 编译并打包HDFS读程序
3.4.7 执行HDFS读程序
3.4.8 安装与配置Eclipse Hadoop插件
3.4.9 使用Eclipse开发并打包HDFS写文件程序
3.4.10 上传HDFS写文件程序jar包并执行
3.4.11 使用Eclipse开发并打包HDFS读文件程序
3.4.12 上传HDFS读文件程序jar包并执行
实验四 YARN实验:部署YARN集群
4.1 实验目的
4.2 实验要求
4.3 实验原理
4.3.1 YARN概述
4.3.2 YARN运行流程
4.4 实验步骤
4.4.1 在master机上配置YARN
4.4.2 统一启动YARN
4.4.3 验证YARN启动成功
4.4.4 在client机上提交DistributedShell任务
4.4.5 在client机上提交MapReduce型任务
4.5 实验结果
实验五 MapReduce实验:单词计数
5.1 实验目的
5.2 实验要求
5.3 实验原理
5.3.1 MapReduce编程
5.3.2 Java API解析
5.4 实验步骤
5.4.1 启动Hadoop
5.4.2 验证HDFS上没有WordCount的文件夹
5.4.3 上传数据文件到HDFS
5.4.4 编写MapReduce程序
5.4.5 使用Eclipse开发工具将该代码打包
5.5 实验结果
5.5.1 程序运行成功控制台上的显示内容
5.5.2 在HDFS上查看结果
实验六 MapReduce实验:二次排序
6.1 实验目的
6.2 实验要求
6.3 实验原理
6.4 实验步骤
6.4.1 编写程序
6.4.2 打包提交
6.5 实验结果
6.5.1 输入数据
6.5.2 执行结果
实验七 MapReduce实验:计数器
7.1 实验目的
7.2 实验要求
7.3 实验背景
7.3.1 MapReduce计数器是什么?
7.3.2 MapReduce计数器能做什么?
7.3.3 内置计数器
7.3.4 计数器使用
7.3.5 自定义计数器
7.4 实验步骤
7.4.1 实验分析设计
7.4.2 编写程序
7.4.3 打包并提交
7.5 实验结果
7.5.1 输入数据
7.5.2 输出显示
实验八 MapReduce实验:Join操作
8.1 实验目的
8.2 实验要求
8.3 实验背景
8.3.1 概述
8.3.2 原理
8.4 实验步骤
8.4.1 准备阶段
8.4.2 编写程序
8.4.3 打包并提交
8.5 实验结果
8.5.1 输入数据
8.5.2 输出显示
实验九 MapReduce实验:分布式缓存
9.1 实验目的
9.2 实验要求
9.3 实验步骤
9.3.1 准备数据
9.3.2 上传数据
9.3.3 编写代码
9.3.4 执行代码
9.3.5 查看结果
9.4 实验结果
实验十 Hive实验:部署Hive
10.1 实验目的
10.2 实验要求
10.3 实验原理
10.4 实验步骤
10.4.1 安装部署
10.4.2 配置HDFS
10.4.3 启动Hive
10.5 实验结果
10.5.1 启动结果
10.5.2 Hive基本命令
实验十一 Hive实验:新建Hive表
11.1 实验目的
11.2 实验要求
11.3 实验原理
11.4 实验步骤
11.4.1 启动Hive
11.4.2 创建表
11.4.3 显示表
11.4.4 显示表列
11.4.5 更改表
11.4.6 删除表(或列)
11.5 实验结果
实验十二 Hive实验:Hive分区
12.1 实验目的
12.2 实验要求
12.3 实验原理
12.4 实验步骤
12.4.1 启动Hadoop集群
12.4.2 用命令进入Hive客户端
12.4.3 通过HQL语句进行实验
12.5 实验结果
实验十三 Spark实验:部署Spark集群
13.1 实验目的
13.2 实验要求
13.3 实验原理
13.3.1 Spark简介
13.3.2 Spark适用场景
13.4 实验步骤
13.4.1 配置Spark集群
13.4.2 配置HDFS
13.4.3 提交Spark任务
13.5 实验结果
13.5.1 进程查看
13.5.2 验证WebUI
13.5.3 SparkWordcount程序执行
实验十四 Spark实验:SparkWordCount
14.1 实验目的
14.2 实验要求
14.3 实验原理
14.3.1 Scala是兼容的
14.3.2 Scala是简洁的
14.3.3 Scala是高级的
14.3.4 Scala是静态类型的
14.4 实验步骤
14.5 实验结果
实验十五 Spark实验:RDD综合实验
15.1 实验目的
15.2 实验要求
15.3 实验原理
15.4 实验步骤
15.4.1 distinct 去除RDD内的重复数据
15.4.2 foreach 遍历RDD内的数据
15.4.3 first取得RDD中的第一个数据
15.4.4 max 取得RDD中的最大的数据
15.4.5 intersection 返回两个RDD重叠的数据
15.5 实验结果
实验十六 Spark实验:Spark综例
16.1 实验目的
16.2 实验要求
16.3 实验原理
16.3.1 Scala
16.3.2 Spark-shell
16.4 实验步骤
16.4.1 启动Spark-shell
16.4.2 编写并执行Scala代码
16.4.3 退出Spark-shell
16.4.4 查看执行结果
实验十七 Spark实验:Spark SQL
17.1 实验目的
17.2 实验要求
17.3 实验原理
17.4 实验步骤
17.5 实验结果
实验十八 Spark实验:Spark Streaming
18.1 实验目的
18.2 实验要求
18.3 实验原理
18.3.1 Spark Streaming架构
18.3.2 Spark Streaming编程模型
18.3.3 Spark Streaming典型案例
18.4 实验步骤
18.5 实验结果
实验十九 Spark实验:GraphX
19.1 实验目的
19.2 实验要求
19.3 实验原理
19.4 实验步骤
19.4.1 在Intellij IDEA 中安装Scala的插件
19.4.2 新建Scala Module
19.4.3 添加maven依赖
19.4.4 新建Scala程序
19.4.5 程序运行
19.5 实验结果
实验二十 部署ZooKeeper
20.1 实验目的
20.2 实验要求
20.3 实验原理
20.4 实验步骤
20.4.1 安装JDK
20.4.2 修改ZooKeeper配置文件
20.4.3 启动ZooKeeper集群
20.5 实验结果
实验二十一 ZooKeeper进程协作
21.1 实验目的
21.2 实验要求
21.3 实验原理
21.4 实验步骤
21.4.1 启动ZooKeeper集群
21.4.2 导入jar包
21.4.3 编写Java代码
21.4.4 做成jar包
21.5 实验结果
实验二十二 部署HBase
22.1 实验目的
22.2 实验要求
22.3 实验原理
22.4 实验步骤
22.5 实验结果
实验二十三 新建HBase表
23.1 实验目的
23.2 实验要求
23.3 实验原理
23.4 实验步骤
23.5 实验结果
实验二十四 部署Storm
24.1 实验目的
24.2 实验要求
24.3 实验原理
24.4 实验步骤
24.5 实验结果
实验二十五 实时WordCountTopology
25.1 实验目的
25.2 实验要求
25.3 实验原理
25.3.1 Topologies
25.3.2 Spouts
25.3.3 Bolts
25.4 实验步骤
25.5 实验结果
实验二十六 文件数据Flume至HDFS
26.1 实验目的
26.2 实验要求
26.3 实验原理
26.3.1 Flume的特点
26.3.2 Flume的可靠性
26.4 实验步骤
26.5 实验结果
实验二十七 Kafka订阅推送示例
27.1 实验目的
27.2 实验要求
27.3 实验原理
27.3.1 Kafka简介
27.3.2 Kafka使用场景
27.4 实验步骤
27.4.1 安装ZooKeeper集群
27.4.2 安装Kafka集群
27.4.3 验证消息推送
27.5 实验结果
实验二十八 Pig版WordCount
28.1 实验目的
28.2 实验要求
28.3 实验原理
28.4 实验步骤
28.5 实验结果
实验二十九 Redis部署与简单使用
29.1 实验目的
29.2 实验要求
29.3 实验原理
29.3.1 CentOS 简介
29.3.2 CentOS与RHEL关系
29.3.3 make简介
29.3.4 Redis简介
29.4 实验步骤
29.4.1 安装配置启动
29.4.2 使用Redis
29.5 实验结果
实验三十 MapReduce与Spark读写Redis
30.1 实验目的
30.2 实验要求
30.3 实验原理
30.4 实验步骤
30.4.1 MapReduce读取Redis
30.4.2 Spark读取Redis
30.5 实验结果
30.5.1 MapReduce读取Redis实验
30.5.2 Spark读取Redis实验
实验三十一 MongoDB实验:读写MongoDB
31.1 实验目的
31.2 实验要求
31.3 实验原理
31.4 实验步骤
31.4.1 启动MongoDB
31.4.2 连接使用MongoDB
31.4.3 连接启动MongoDB的Shell,执行一些简单命令
31.5 实验结果
实验三十二 LevelDB实验:读写LevelDB
32.1 实验目的
32.2 实验要求
32.3 实验原理
32.4 实验步骤
32.4.1 使用C++代码建立数据库连接
32.4.2 写入数据
32.4.3 读取数据
32.4.4 删除数据
32.4.5 关闭连接
32.4.6 完整的代码
32.5 实验结果
实验三十三 Mahout实验:K-Means
33.1 实验目的
33.2 实验要求
33.3 实验原理
33.3.1 Mahout简介
33.3.2 Mahout发展
33.3.3 Mahout特性
33.3.4 K-Means算法概要
33.3.5 K-Means算法存在的问题
33.3.6 K-Means算法优点
33.3.7 K-Means算法缺点
33.3.8 K-Means算法应用
33.4 实验步骤
33.4.1 添加临时JAVA_HOME环境变量
33.4.2 建立HDFS目录
33.4.3 实验数据准备
33.4.4 提交Mahout的K-Means程序
33.5 实验结果
实验三十四 使用Spark实现K-Means
34.1 实验目的
34.2 实验要求
34.3 实验原理
34.4 实验步骤
34.4.1 添加临时JAVA_HOME环境变量
34.4.2 上传训练数据集
34.4.3 训练SVM模型
34.5 实验结果
实验三十五 使用Spark实现SVM
35.1 实验目的
35.2 实验要求
35.3 实验原理
35.3.1 SVM算法介绍
35.3.2 SVM算法原理
35.4 实验步骤
35.4.1 添加临时JAVA_HOME环境变量
35.4.2 上传训练数据集
35.4.3 训练SVM模型
35.5 实验结果
实验三十六 使用Spark实现FP-Growth
36.1 实验目的
36.2 实验要求
36.3 实验原理
36.3.1 FP-Growth算法简介
36.3.2 FP-Growth算法流程
36.4 实验步骤
36.4.1 添加临时JAVA_HOME环境变量
36.4.2 上传训练数据集
36.4.3 训练SVM模型
36.5 实验结果
实验三十七 综合实战:车牌识别
37.1 实验目的
37.2 实验要求
37.3 实验步骤
37.3.1 编写程序
37.3.2 环境准备
37.3.3 打包提交
37.4 实验结果
37.4.1 输入数据
37.4.2 执行结果
实验三十八 综合实战:搜索引擎
38.1 实验目的
38.2 实验要求
38.3 实验步骤
38.3.1 新建Java项目
38.3.2 新建JavaWeb项目
38.3.3 网页扒取
38.3.4 建立关键词索引
38.3.5 关键词搜索
38.4 实验结果
实验三十九 综合实战:推荐系统
39.1 实验目的
39.2 实验要求
39.3 实验步骤
39.3.1 试验原理概述
39.3.2 数据集准备
39.3.3 代码实现
39.4 实验结果
实验四十 综合实战:环境大数据
40.1 实验目的
40.2 实验要求
40.3 实验原理
40.4 实验步骤
40.4.1 分析数据文件
40.4.2 将数据文件上传至HDFS
40.4.3 编写月平均气温统计程序
40.4.4 查看月平均气温统计结果
40.4.5 编写每日空气质量统计程序
40.4.6 查看每日空气质量统计结果
40.4.7 将每日空气质量统计文件进行整合
40.4.8 编写各空气质量天数统计程序
40.4.9 查看各空气质量天数统计结果
实验四十一 综合实战:智能硬件大数据托管
41.1 实验目的
41.2 实验要求
41.3 实验原理
41.4 实验步骤
41.4.1 万物云平台相关注册
41.4.2 建表——用于存储智能硬件的数据
41.4.3 智能硬件接入平台
41.4.4 数据上传
41.4.5 数据查询
41.4.6 简单的数据分析
41.5 实验结果
实验四十二 综合实战:贷款风险评估
42.1 实验目的
42.2 实验要求
42.3 实验原理
42.3.1 分类过程及评估指标
42.3.2 spark-submit使用详解
42.4 实验相关
42.4.1 实验环境
42.4.2 实验数据
42.4.3 实验步骤
42.5 实验结果
大数据实验手册是2017年由电子工业出版社出版,作者刘鹏。
得书感谢您对《大数据实验手册》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。