大数据采集与处理

大数据采集与处理

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

大数据时代关键技术:采集、预处理、存储、计算和安全

内容简介

在大数据时代背景下,如何从大数据中采集出有用的信息并合理地存储起来已经是大数据发展的最关键因素,数据采集与处理是大数据产业的基石。本书首先介绍了大数据概念及特征、大数据处理关键技术、开源 Hadoop安装与使用、Hadoop生态系统及主要组件,在此基础上重点介绍了大数据采集、大数据预处理、大数据存储与计算、大数据安全等关键技术,并且每一部分都以案例为依托进行项目实战。大数据采集部分具体包括:大数据采集方法、常用采集工具及平台、网络爬虫、Apache Kafka等;大数据预处理技术包括:清理、集成、变换、数据仓库与ETL;大数据存储与计算部分介绍了RDB、MPP、HDFS、HBase、Alluxio、ElasticSearch等存储架构,Redis、Cassandra、ongoDB、Neo4j等常用的NoSQL, MapReduce计算框架、Hive数据仓库,Spark、Storm 、Flink等流计算模式,以及Pregel图计算;大数据安全部分介绍了大数据安全面临的技术问题和挑战、大数据安全关键技术以及大数据安全管理及应用;最后介绍了电商、交通、医院、电信、煤炭、教育等行业大数据采集与处理。

章节目录

封面

前折页

版权信息

内容简介

前言

第1章 大数据基础

1.1 大数据概念及特征

1.2 大数据采集与处理基本流程

1.2.1 大数据采集

1.2.2 大数据预处理

1.2.3 大数据处理

1.3 大数据分析

1.4 大数据应用

1.4.1 大数据应用行业分类

1.4.2 大数据分析在商业上的应用

习题

参考文献

第2章 开源Hadoop

2.1 Hadoop概述

2.1.1 Hadoop简介

2.1.2 Hadoop起源及发展史

2.1.3 Hadoop发行版本

2.1.4 Hadoop特性

2.2 Hadoop生态系统

2.2.1 HDFS

2.2.2 MapReduce

2.2.3 Hive

2.2.4 ZooKeeper

2.2.5 Flume

2.2.6 Kafka

2.2.7 Spark

2.2.8 Storm

2.2.9 Flink

2.2.10 YARN

2.3 Hadoop的安装与使用

2.3.1 环境准备

2.3.2 单机模式

2.3.3 伪分布式

2.3.4 完全分布式安装

习题

参考文献

第3章 大数据采集

3.1 数据采集与大数据采集

3.1.1 数据采集

3.1.2 大数据采集及数据来源

3.1.3 传统数据采集与大数据采集的区别

3.1.4 大数据采集分类

3.2 大数据采集方法

3.2.1 数据库采集

3.2.2 系统日志采集

3.2.3 网络数据采集

3.2.4 传感器采集

3.2.5 众包采集

3.3 常用采集工具及平台

3.3.1 Flume

3.3.2 Fluentd

3.3.3 Logstash

3.3.4 Chukwa

3.3.5 Scribe

3.3.6 Splunk

3.3.7 Scrapy

3.4 网络爬虫

3.4.1 网络爬虫分类

3.4.2 网络爬虫发展现状

3.4.3 网络爬虫使用技术

3.5 实战

3.5.1 项目准备

3.5.2 架构设计

3.5.3 代码实现

3.5.4 结果展示

习题

参考文献

第4章 日志采集

4.1 日志采集概述

4.1.1 系统日志分类

4.1.2 日志分析系统架构及日志采集方式

4.1.3 日志采集应用场景与日志分析应用场景

4.1.4 日志采集系统关键技术

4.2 Scribe

4.2.1 Scribe概述

4.2.2 Scribe全局配置

4.2.3 Scribe的存储类型配置

4.3 Chukwa

4.3.1 Chukwa概述

4.3.2 Chukwa架构

4.3.3 Chukwa数据收集应用

4.4 Kafka

4.4.1 Kafka概述

4.4.2 Kafka架构

4.4.3 Kafka日志采集

4.5 Flume

4.5.1 Flume概述

4.5.2 Flume架构

4.5.3 Flume的优势

4.6 实战

4.6.1 Flume安装部署

4.6.2 环境测试

4.6.3 采集目录到HDFS

4.6.4 采集文件到HDFS

习题

参考文献

第5章 大数据预处理

5.1 为什么要进行数据预处理

5.2 大数据预处理总体架构

5.3 大数据预处理方法

5.3.1 数据清洗

5.3.2 数据集成

5.3.3 数据转换

5.3.4 数据消减

5.4 ETL工具Kettle

5.4.1 ETL介绍

5.4.2 Kettle介绍

5.4.3 Kettle安装与配置

5.5 实战

5.5.1 基于Python的数据预处理

5.5.2 基于Hadoop生态圈的Kettle应用

习题

参考文献

第6章 大数据存储

6.1 大数据存储概述

6.1.1 大数据存储面临的问题

6.1.2 大数据存储方式

6.1.3 大数据存储技术路线

6.2 HDFS

6.2.1 HDFS架构

6.2.2 HDFS存储机制

6.2.3 NameNode和DataNode工作机制

6.3 NoSQL

6.3.1 NoSQL数据库概述

6.3.2 HBase

6.3.3 MongoDB

6.3.4 Redis

6.4 ElasticSearch

6.4.1 ElasticSearch概述

6.4.2 ElasticSearch基本概念

6.4.3 ElasticSearch工作原理

6.4.4 ElasticSearch存储机制

6.4.5 ElasticSearch分布式存储

6.4.6 ElasticSearch安装与运行

6.5 实战

6.5.1 主从模式搭建

6.5.2 Sentinel模式搭建

6.5.3 Cluster模式搭建

习题

参考文献

第7章 MapReduce

7.1 概述

7.2 MapReduce计算框架

7.2.1 MapReduce模型

7.2.2 MapReduce函数

7.2.3 MapReduce资源管理

7.2.4 MapReduce生命周期管理

7.3 MapReduce工作流程及原理

7.3.1 MapReduce工作流程

7.3.2 MapReduce工作原理

7.4 深入Shuffle过程

7.4.1 Map端Shuffle

7.4.2 Reduce端Shuffle

7.5 实战

7.5.1 任务准备

7.5.2 编写Map程序

7.5.3 编写Reduce程序

7.5.4 编写main函数

7.5.5 核心代码包

7.5.6 运行代码

习题

参考文献

第8章 Hive数据仓库

8.1 数据仓库简介

8.1.1 数据仓库概念

8.1.2 数据仓库的结构

8.1.3 传统数据仓库的问题

8.1.4 数据仓库的发展

8.2 Hive

8.2.1 Hive简介

8.2.2 Hive与传统数据库的对比

8.2.3 Hive系统架构

8.2.4 Hive体系结构

8.2.5 Hive工作原理

8.2.6 Hive的数据模型

8.2.7 Hive基本操作

8.3 Impala

8.3.1 Impala简介

8.3.2 Impala架构

8.3.3 Impala执行过程

8.3.4 Impala与Hive比较

8.3.5 Impala基本操作

8.4 Spark SQL

8.4.1 Spark SQL简介

8.4.2 Spark SQL系统架构

8.4.3 HiveContext和SQLContext的运行过程

8.4.4 Shark和Spark SQL

8.4.5 Spark SQL基本操作

8.5 案例

8.5.1 大数据仓库设计案例

8.5.2 YouTuBe项目实战

习题

参考文献

第9章 流计算

9.1 流计算简介

9.1.1 流计算的概念及特点

9.1.2 流计算的适用范围与应用场景

9.2 Spark Streaming

9.2.1 Spark Streaming 概述

9.2.2 Spark Streaming基本原理

9.2.3 Spark Streaming 运行架构

9.2.4 实战

9.3 Storm

9.3.1 Storm概述

9.3.2 Storm基础架构

9.3.3 Storm运行流程

9.3.4 实战

9.4 Flink

9.4.1 Flink概述

9.4.2 Flink运行架构

9.4.3 实战

9.5 案例

9.5.1 任务目标

9.5.2 实验环境

9.5.3 数据准备

9.5.4 业务(任务)实现

9.5.5 结果展示

习题

参考文献

第10章 Pregel图计算

10.1 Pregel图计算简介

10.1.1 图结构数据

10.1.2 传统图计算解决方案的不足

10.1.3 图计算通用软件

10.1.4 Pregel简介

10.2 Pregel图计算模型

10.2.1 有向图和顶点

10.2.2 顶点之间的消息传递

10.2.3 Pregel计算过程

10.3 Pregel工作原理

10.3.1 Pregel的C++API

10.3.2 消息传递机制和Combiner

10.3.3 Aggregator机制

10.3.4 拓扑改变

10.3.5 输入和输出

10.4 Pregel体系结构

10.4.1 Pregel的执行过程

10.4.2 容错性

10.4.3 Worker

10.4.4 Master

10.4.5 Aggregator

10.5 Pregel应用实例

10.5.1 单源最短路径

10.5.2 PageRank算法实现及比较

10.6 Hama

10.6.1 Hama介绍

10.6.2 Hama体系结构

10.6.3 Hama实现PageRank算法

习题

参考文献

第11章 大数据安全技术及应用

11.1 大数据安全概述

11.2 大数据安全威胁形式

11.2.1 大数据基础设施安全威胁

11.2.2 大数据生命周期安全威胁

11.2.3 大数据隐私安全威胁

11.3 大数据安全关键路径

11.3.1 大数据性能安全保障

11.3.2 大数据安全关键技术

11.4 大数据安全管理及应用

11.4.1 大数据安全管理

11.4.2 大数据安全应用

11.5 大数据安全案例分析

11.5.1 安全性能案例——如何自行搭建大数据计算平台

11.5.2 生命周期安全分析案例——大数据内网的硬件漏洞安全分析

习题

参考文献

第12章 行业大数据采集与处理

12.1 电商大数据采集与处理

12.1.1 电商行业大数据概述

12.1.2 京东大数据采集与处理

12.1.3 某电商网站完整离线数据分析案例

12.2 煤炭大数据采集与处理

12.2.1 煤炭行业大数据概述

12.2.2 煤炭行业大数据采集与处理

12.2.3 煤炭行业大数据平台案例

12.3 教育大数据采集与处理

12.3.1 总体技术架构

12.3.2 Hadoop与Spark集成平台

12.3.3 数据采集方案设计

12.3.4 数据清洗方案设计

12.3.5 数据存储方案设计

12.3.6 学生学业预警系统需求分析

12.3.7 系统体系结构设计

12.4 医疗大数据采集与处理

12.4.1 医疗大数据概述

12.4.2 医疗行业大数据采集与处理

12.4.3 医疗大数据采集与处理案例

12.5 电信大数据采集与处理

12.5.1 电信行业大数据概述

12.5.2 电信行业大数据采集与处理

12.5.3 电信行业大数据案例

12.6 交通大数据采集与处理

12.6.1 交通大数据概述

12.6.2 交通行业大数据采集与处理

12.6.3 交通大数据案例

习题

参考文献

反侵权盗版声明

后折页

封底

大数据采集与处理是2021年由电子工业出版社出版,作者张雪萍。

得书感谢您对《大数据采集与处理》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
用Python轻松处理Excel数据 电子书
本书旨在帮助读者掌握如何用Python高效地处理Excel数据,实现办公自动化。本书首先介绍开发环境的搭建和Excel模块的安装,接着讲解编写代码前的准备,然后介绍如何使用openpyxl和pandas这两个模块编写员工信息表查询案例,最后介绍PyInstaller模块与.py文件的编译,以及如何快速移植本书案例的代码。本书不仅适合办公人员阅读,还适合想要了解openpyxl模块和pandas模块
Spark海量数据处理:技术详解与平台实战 电子书
在数字经济时代,数据是重要的资源要素;同时,新的数据又在源源不断地产生,企业面临的一个基本问题就是如何管理和利用这些数据,这对传统的数据处理方法与分析框架提出了新的诉求和挑战,也是全球业界与学界为关心的问题。为了满足大数据时代对信息的快速处理的需求,一个分布式的开源计算框架Apache Spark应运而生。经过十年的发展,Spark已经成为目前大数据处理的标杆,在整个业界得到了广泛的使用。对大数据工程师来说,用Spark构建数据管道无疑是很好的选择,而对数据科学家来说,Spark也是高效的数据探索工具。 本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,技术理论与实战相结合,层次分明,循序渐进。本书不仅介绍了如何开发Spark应用的基础内容,包括Spark架构、Spark编程、SparkSQL、Spark调优等,还探讨了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习、Alluxio系统等高级主题,同时完整实现了一个企业背景调查系统,借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足业务需求。学习该系统可以使读者从实战中巩固所学,并将技术理论与应用实战融会贯通。 本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。
Excel数据处理与分析:数据思维+分析方法+场景应用 电子书
作者在世界500强企业从事数据分析师工作,有着丰富的实践经验,带你轻松入门数据分析。
Excel商务数据处理与分析(微课版) 电子书
本书主要用于对商务数据的管理与分析,书中深入浅出地介绍了利用Excel2010软件对商务数据进行编辑、分析和管理的方法,可以帮助用户快速、高效地完成数据的处理与分析工作。全书共分为11章,其中第1章主要介绍商务数据的基础知识;第2~5章主要介绍数据编辑与处理的方法,如数据的可视化、数据的排序以及数据的分类和筛选等,第6~11章主要介绍实际工作中不同类型数据的分析方法,并对其中的实用函数、公式和数据
大数据技术原理与应用——概念、存储、处理、分析与应用 电子书
全书共有13章,系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase和MapReduce等重要章节,安排了入门级的实践操作,让读者更好地学习和掌握大数据关键技术。