编辑推荐
全面掌握大数据技术及实践
内容简介
本书系统、全面地介绍了大数据技术的基础知识,期望学生通过对本书的学习和实践了解大数据技术的概貌,掌握Hadoop生态圈大数据技术中最为基础和关键的知识。主要内容包括大数据概述、大数据软件技术基础、大数据存储技术、MapReduce分布式编程、数据采集与预处理、数据仓库与联机分析技术、数据挖掘与分析技术、Spark分布式内存计算框架、数据可视化技术、大数据安全。
章节目录
封面
扉页
版权信息
目录
内容提要
编委会
丛书序一
丛书序二
前言
第1章 大数据概述
1.1 大数据的相关概念
1.2 大数据处理的基础技术
1.2.1 大数据处理流程
1.2.2 分布式计算
1.2.3 分布式文件系统
1.2.4 分布式数据库
1.2.5 数据库与数据仓库
1.2.6 云计算与虚拟化技术
1.2.7 虚拟化产品介绍
1.3 流行的大数据技术
1.4 大数据解决方案
1.5 大数据发展现状和趋势
1.5.1 大数据现状分析
1.5.2 大数据发展趋势
1.6 教学建议及教辅资料
习题
第2章 大数据软件基础
2.1 Linux基础
2.1.1 Linux简介
2.1.2 Linux基本操作
2.1.3 网络配置管理
2.1.4 其他常用网络命令
2.2 Java基础
2.2.1 面向对象与泛型
2.2.2 集合类
2.2.3 内部类与匿名类
2.2.4 反射
2.3 SQL语言基础
2.4 在VirtualBox上安装Linux集群
2.4.1 master节点的安装
2.4.2 配置Virtualbox网络及虚拟机网卡
2.4.3 slave节点的安装与配置
2.4.4 Java环境的安装
2.4.5 MySQL服务
2.4.6 SSH免密钥登录
2.4.7 配置时钟同步
习题
第3章 大数据存储技术
3.1 理解HDFS分布式文件系统
3.1.1 HDFS简介
3.1.2 HDFS的体系结构
3.1.3 HDFS中的数据流
3.2 NoSQL数据库
3.2.1 键值数据库Redis
3.2.2 列存储数据库HBase
3.2.3 文档数据库MongoDB
3.2.4 图数据库Neo4j
3.3 Hadoop的安装与配置
3.3.1 Hadoop的配置部署
3.3.2 启动Hadoop集群
3.4 HDFS文件管理
3.4.1 命令行访问HDFS
3.4.2 使用Java API访问HDFS
3.5 HBase的安装与配置
3.5.1 解压并安装HBase
3.5.2 配置HBase
3.6 HBase的使用
3.6.1 HBase-shell
3.6.2 Java API
习题
第4章 MapReduce分布式编程
4.1 MapReduce编程概述
4.2 MapReduce编程示例
4.2.1 词频统计程序示例
4.2.2 MapReduce编译与运行
4.3 深入理解MapReduce程序的运行过程
4.4 MapReduce任务调度框架
4.4.1 经典MapReduce任务调度模型
4.4.2 YARN框架原理及运行机制
4.5 MapReduce的数据类型与输入/输出格式
4.5.1 MapReduce的数据类型
4.5.2 MapReduce的文件输入/输出格式
4.6 MapReduce编程实例
4.6.1 视频类型统计
4.6.2 查询TOP10用户上传的视频列表
习题
第5章 数据采集与预处理
5.1 流数据采集工具Flume
5.1.1 Flume的安装
5.1.2 Flume的配置与运行
5.1.3 Flume源
5.1.4 Flume槽
5.1.5 通道、拦截器与处理器
5.2 数据传输工具Sqoop
5.2.1 Sqoop的安装
5.2.2 Sqoop的配置与运行
5.2.3 Sqoop实例
5.2.4 Sqoop导入过程
5.2.5 Sqoop导出过程
5.3 数据接入工具Kafka
5.3.1 Kafka的安装与配置
5.3.2 Kafka消息生产者
5.3.3 Kafka消息消费者
5.3.4 Kafka核心特性
习题
第6章 数据仓库与联机分析处理
6.1 数据仓库
6.1.1 数据仓库的概念
6.1.2 数据仓库与操作性数据库的区别
6.1.3 数据仓库的体系结构
6.2 多维数据模型
6.2.1 数据立方体
6.2.2 数据模型
6.2.3 多维数据模型中的OLAP操作
6.3 Hive
6.3.1 Hive简介
6.3.2 Hive的安装与配置
6.3.3 Hive使用
6.3.4 Hive导入数据实例
6.4 Kylin
6.4.1 Kylin简介
6.4.2 Kylin的安装与配置
6.4.3 Kylin的使用
6.5 Superset
6.5.1 Superset简介
6.5.2 Superset的安装与配置
6.5.3 Superset的使用
习题
第7章 大数据分析与挖掘技术
7.1 概述
7.1.1 数据挖掘简介
7.1.2 Mahout的安装与配置
7.2 推荐
7.2.1 推荐的定义与评估
7.2.2 Mahout中的常见推荐算法
7.2.3 对GroupLens数据集进行推荐与评价
7.3 聚类
7.3.1 聚类的基本概念
7.3.2 常见的Mahout数据结构
7.3.3 几种聚类算法
7.3.4 聚类应用实例
7.4 分类
7.4.1 分类的基本概念
7.4.2 Mahout中一些常见的训练分类器算法
7.4.3 应用实例:使用SGD训练分类器对新闻分类
习题
第8章 Spark分布式内存计算框架
8.1 Spark简介
8.2 Spark的编程模型
8.2.1 核心数据结构RDD
8.2.2 RDD上的操作
8.2.3 RDD的持久化
8.2.4 RDD计算工作流
8.3 Spark的调度机制
8.3.1 Spark分布式架构
8.3.2 Spark应用执行流程
8.3.3 Spark调度与任务分配
8.4 Spark应用案例
8.4.1 Spark Shell
8.4.2 单词计数
8.4.3 统计用户的视频上传数
8.4.4 查询Top100用户的上传视频列表
8.5 Spark生态圈其他技术
8.5.1 Spark SQL
8.5.2 Spark Streaming
8.5.3 MLlib
8.5.4 GraphX
8.6 Zeppelin:交互式分析Spark数据
8.6.1 Zeppelin简介
8.6.2 安装和启动
8.6.3 在Zeppelin中处理YouTube数据
习题
第9章 数据可视化技术
9.1 数据可视化概述
9.2 数据可视化工具
9.2.1 桌面可视化技术
9.2.2 OLAP可视化工具
9.2.3 Web可视化技术
9.3 可视化组件与ECharts示例
9.3.1 ECharts使用准备
9.3.2 ECharts示例
9.4 与大数据平台集成
9.4.1 获取对Hive数据库的连接
9.4.2 通过Java调用Hive提供的API操作数据
9.4.3 将数据提交到Web页面进行数据可视化
习题
第10章 大数据安全
10.1 大数据安全的挑战与对策
10.1.1 大数据安全与隐私的挑战
10.1.2 数据加密技术
10.1.3 大数据安全保障体系
10.1.4 华为大数据安全解决方案
10.2 基础设施安全
10.2.1 认证技术
10.2.2 访问控制
10.2.3 公钥基础设施
10.2.4 华为大数据平台
10.3 数据管理安全
10.3.1 数据溯源
10.3.2 数字水印
10.3.3 策略管理
10.3.4 完整性保护
10.3.5 数据脱敏
10.4 安全分析
10.4.1 大数据安全分析架构
10.4.2 大数据防DDoS攻击
10.4.3 攻击可视化与安全业务定制
10.5 隐私保护
10.5.1 隐私保护面临的挑战
10.5.2 内容关联密钥
10.5.3 华为大数据隐私保护方案
习题
附录 《大数据技术基础》配套实验课程方案简介
参考文献
大数据技术基础是2018年由人民邮电出版社出版,作者薛志东。
得书感谢您对《大数据技术基础》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。