大数据技术基础

大数据技术基础

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

全面掌握大数据技术及实践

内容简介

本书系统、全面地介绍了大数据技术的基础知识,期望学生通过对本书的学习和实践了解大数据技术的概貌,掌握Hadoop生态圈大数据技术中最为基础和关键的知识。主要内容包括大数据概述、大数据软件技术基础、大数据存储技术、MapReduce分布式编程、数据采集与预处理、数据仓库与联机分析技术、数据挖掘与分析技术、Spark分布式内存计算框架、数据可视化技术、大数据安全。

章节目录

封面

扉页

版权信息

目录

内容提要

编委会

丛书序一

丛书序二

前言

第1章 大数据概述

1.1 大数据的相关概念

1.2 大数据处理的基础技术

1.2.1 大数据处理流程

1.2.2 分布式计算

1.2.3 分布式文件系统

1.2.4 分布式数据库

1.2.5 数据库与数据仓库

1.2.6 云计算与虚拟化技术

1.2.7 虚拟化产品介绍

1.3 流行的大数据技术

1.4 大数据解决方案

1.5 大数据发展现状和趋势

1.5.1 大数据现状分析

1.5.2 大数据发展趋势

1.6 教学建议及教辅资料

习题

第2章 大数据软件基础

2.1 Linux基础

2.1.1 Linux简介

2.1.2 Linux基本操作

2.1.3 网络配置管理

2.1.4 其他常用网络命令

2.2 Java基础

2.2.1 面向对象与泛型

2.2.2 集合类

2.2.3 内部类与匿名类

2.2.4 反射

2.3 SQL语言基础

2.4 在VirtualBox上安装Linux集群

2.4.1 master节点的安装

2.4.2 配置Virtualbox网络及虚拟机网卡

2.4.3 slave节点的安装与配置

2.4.4 Java环境的安装

2.4.5 MySQL服务

2.4.6 SSH免密钥登录

2.4.7 配置时钟同步

习题

第3章 大数据存储技术

3.1 理解HDFS分布式文件系统

3.1.1 HDFS简介

3.1.2 HDFS的体系结构

3.1.3 HDFS中的数据流

3.2 NoSQL数据库

3.2.1 键值数据库Redis

3.2.2 列存储数据库HBase

3.2.3 文档数据库MongoDB

3.2.4 图数据库Neo4j

3.3 Hadoop的安装与配置

3.3.1 Hadoop的配置部署

3.3.2 启动Hadoop集群

3.4 HDFS文件管理

3.4.1 命令行访问HDFS

3.4.2 使用Java API访问HDFS

3.5 HBase的安装与配置

3.5.1 解压并安装HBase

3.5.2 配置HBase

3.6 HBase的使用

3.6.1 HBase-shell

3.6.2 Java API

习题

第4章 MapReduce分布式编程

4.1 MapReduce编程概述

4.2 MapReduce编程示例

4.2.1 词频统计程序示例

4.2.2 MapReduce编译与运行

4.3 深入理解MapReduce程序的运行过程

4.4 MapReduce任务调度框架

4.4.1 经典MapReduce任务调度模型

4.4.2 YARN框架原理及运行机制

4.5 MapReduce的数据类型与输入/输出格式

4.5.1 MapReduce的数据类型

4.5.2 MapReduce的文件输入/输出格式

4.6 MapReduce编程实例

4.6.1 视频类型统计

4.6.2 查询TOP10用户上传的视频列表

习题

第5章 数据采集与预处理

5.1 流数据采集工具Flume

5.1.1 Flume的安装

5.1.2 Flume的配置与运行

5.1.3 Flume源

5.1.4 Flume槽

5.1.5 通道、拦截器与处理器

5.2 数据传输工具Sqoop

5.2.1 Sqoop的安装

5.2.2 Sqoop的配置与运行

5.2.3 Sqoop实例

5.2.4 Sqoop导入过程

5.2.5 Sqoop导出过程

5.3 数据接入工具Kafka

5.3.1 Kafka的安装与配置

5.3.2 Kafka消息生产者

5.3.3 Kafka消息消费者

5.3.4 Kafka核心特性

习题

第6章 数据仓库与联机分析处理

6.1 数据仓库

6.1.1 数据仓库的概念

6.1.2 数据仓库与操作性数据库的区别

6.1.3 数据仓库的体系结构

6.2 多维数据模型

6.2.1 数据立方体

6.2.2 数据模型

6.2.3 多维数据模型中的OLAP操作

6.3 Hive

6.3.1 Hive简介

6.3.2 Hive的安装与配置

6.3.3 Hive使用

6.3.4 Hive导入数据实例

6.4 Kylin

6.4.1 Kylin简介

6.4.2 Kylin的安装与配置

6.4.3 Kylin的使用

6.5 Superset

6.5.1 Superset简介

6.5.2 Superset的安装与配置

6.5.3 Superset的使用

习题

第7章 大数据分析与挖掘技术

7.1 概述

7.1.1 数据挖掘简介

7.1.2 Mahout的安装与配置

7.2 推荐

7.2.1 推荐的定义与评估

7.2.2 Mahout中的常见推荐算法

7.2.3 对GroupLens数据集进行推荐与评价

7.3 聚类

7.3.1 聚类的基本概念

7.3.2 常见的Mahout数据结构

7.3.3 几种聚类算法

7.3.4 聚类应用实例

7.4 分类

7.4.1 分类的基本概念

7.4.2 Mahout中一些常见的训练分类器算法

7.4.3 应用实例:使用SGD训练分类器对新闻分类

习题

第8章 Spark分布式内存计算框架

8.1 Spark简介

8.2 Spark的编程模型

8.2.1 核心数据结构RDD

8.2.2 RDD上的操作

8.2.3 RDD的持久化

8.2.4 RDD计算工作流

8.3 Spark的调度机制

8.3.1 Spark分布式架构

8.3.2 Spark应用执行流程

8.3.3 Spark调度与任务分配

8.4 Spark应用案例

8.4.1 Spark Shell

8.4.2 单词计数

8.4.3 统计用户的视频上传数

8.4.4 查询Top100用户的上传视频列表

8.5 Spark生态圈其他技术

8.5.1 Spark SQL

8.5.2 Spark Streaming

8.5.3 MLlib

8.5.4 GraphX

8.6 Zeppelin:交互式分析Spark数据

8.6.1 Zeppelin简介

8.6.2 安装和启动

8.6.3 在Zeppelin中处理YouTube数据

习题

第9章 数据可视化技术

9.1 数据可视化概述

9.2 数据可视化工具

9.2.1 桌面可视化技术

9.2.2 OLAP可视化工具

9.2.3 Web可视化技术

9.3 可视化组件与ECharts示例

9.3.1 ECharts使用准备

9.3.2 ECharts示例

9.4 与大数据平台集成

9.4.1 获取对Hive数据库的连接

9.4.2 通过Java调用Hive提供的API操作数据

9.4.3 将数据提交到Web页面进行数据可视化

习题

第10章 大数据安全

10.1 大数据安全的挑战与对策

10.1.1 大数据安全与隐私的挑战

10.1.2 数据加密技术

10.1.3 大数据安全保障体系

10.1.4 华为大数据安全解决方案

10.2 基础设施安全

10.2.1 认证技术

10.2.2 访问控制

10.2.3 公钥基础设施

10.2.4 华为大数据平台

10.3 数据管理安全

10.3.1 数据溯源

10.3.2 数字水印

10.3.3 策略管理

10.3.4 完整性保护

10.3.5 数据脱敏

10.4 安全分析

10.4.1 大数据安全分析架构

10.4.2 大数据防DDoS攻击

10.4.3 攻击可视化与安全业务定制

10.5 隐私保护

10.5.1 隐私保护面临的挑战

10.5.2 内容关联密钥

10.5.3 华为大数据隐私保护方案

习题

附录 《大数据技术基础》配套实验课程方案简介

参考文献

大数据技术基础是2018年由人民邮电出版社出版,作者薛志东。

得书感谢您对《大数据技术基础》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
大数据原理与技术 电子书
本书则是华为公司针对华为ICT学院大数据方向的在读学生,专门组织合作伙伴和华为公司内部员工开发的标准化教材,这套教材的目的在于循序渐进地帮助华为ICT学院大数据方向的学生掌握大数据技术的基本原理与应用场景,能够在面对真实的业务场景时,独立完成大数据平台的搭建、维护及故障的处理。
数据共享与数据整合技术 电子书
本教材一共6个项目,项目1为SOA基础知识导入,主要介绍了SOA的基本概念、发展历程,与企业IT战略之间的关系;项目2介绍了Web服务的相关基础知识,包括Web服务的体系结构特性、服务规范、SOAP、WSDL、UDDI等;项目3介绍了ESB的相关知识,明确了ESB与EAI之间的关系,介绍了SOA思想针对实际问题的具体实现思路,重点讲解了iESB引擎和iESB设计器的安装配置方法;项目4至项目6比较
数据库安全技术 电子书
本书共8章,重点介绍与数据库安全相关的理论和技术,主要内容包括数据库安全基础、数据库安全层次、SQL和Web应用基础、SQL注入与防范、数据库访问控制、数据库备份与恢复、数据加密与审核、大数据与安全。本书适合作为高等院校信息安全、信息管理、大数据等相关专业的教材,也可作为对数据库安全感兴趣的读者的自学教材。
数字媒体技术基础 电子书
一本书讲透数字媒体技术基本概念、应用与实验。
机器学习与大数据技术 电子书
本书较为全面地论述了机器学习、深度学习、大数据技术与图像处理技术的基本概念、基础原理和基本方法,以农业为应用场景,力求通缩易懂,深入浅出的介绍了与机器学习、深度学习、大数据技术与图像处理技术问题联系密切的内容。全书主要分为4大部分:机器学习、大数据技术和图像处理技术的基础知识;经典的机器学习基本理论和方法,以及深度学习和大数据未来的发展;实践应用;机器学习和人工智能的数学基础与编程基础。