实战大数据（Hadoop+Spark+Flink）从平台构建到交互式数据分析（离线/实时）经典语录

计算机与互联网大数据与云计算杨俊

简介：面向大数据开发工程师，大数据运维工程师围绕Hadoop、Spark、Flink三大主流平台，详解大数据平台的搭建及数据分析（离线/实时）随书配备全套数据集、安装包、配置文件、海量教学视频（近30GB），方便学用

本书详细介绍了大数据工程师在实际工作中应该熟练掌握的大数据技术。全书共8章，分别是大数据技术概述、搭建IDEA开发环境及Linux虚拟机、基于Hadoop构建大数据平台、基于HBase和Kafka构建海量数据存储与交换系统、用户行为离线分析—构建日志采集和分析平台、基于Spark的用户行为实时分析、基于Flink的用户行为实时分析、用户行为数据可视化。本书以一个完整的大数据项目为主线，涵盖Hadoop、Spark、Flink等主流大数据技术，按照大数据工程师的项目开发流程，理论与实践结合，逐步推进，使读者在学习大数据核心技术的同时，也能掌握开发大数据项目的完整流程，从而获得大数据项目开发经验。

本书既可以作为大数据工程师的必备开发手册，也可以作为高校大数据及相关专业的教材或实验手册。

前言

大数据技术已经被应用到各行各业，涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力，从而为企业快速决策提供了数据支撑，能够助力企业改进业务流程、控制成本、提高产品质量，应用大数据技术为企业核心竞争力的提升打下了坚实的基础。

大数据技术在企业项目开发中主要涉及数据采集、数据存储和数据计算三个方面：数据采集是利用采集技术将各种数据源、不同格式的数据快速采集到大数据平台。数据存储是将采集过来的数据，按照不同应用场景，使用不同技术进行存储，为数据计算做准备。数据计算可以根据数据的时效性，对存储的数据进行离线计算和实时计算，最终的计算结果可以为企业决策提供数据支撑。数据采集、数据存储和数据计算这三个方面是大数据工程师的必备技能。

本书的主要特色是以一个完整的大数据项目为主线，涵盖Hadoop、Spark、Flink等主流大数据技术，按照大数据工程师的项目开发流程，理论与实践结合，逐步推进，使读者在学习大数据核心技术的同时，也能掌握开发大数据项目的完整流程，从而获得大数据项目开发经验。

本书共有8章。

第1章是大数据技术概述，主要讲解了什么是大数据、大数据平台架构、大数据工程师的技能树以及大数据项目的需求分析与设计，让读者对整个大数据平台架构以及需要掌握的大数据技能有一个整体的了解。

第2章主要讲解了如何搭建IDEA开发环境和Linux虚拟机，为大数据项目的开发打好环境基础。

第3章是基于Hadoop构建大数据平台，介绍了Zookeeper基础理论及分布式集群构建、HDFS基础理论及分布式集群的构建、YARN基础理论及分布式集群的构建以及MapReduce分布式计算框架，让读者掌握Hadoop集群构建的同时也能了解Hadoop集群运行的原理。

第4章详细讲解了HBase分布式数据库技术和Kafka分布式消息队列技术，基于HBase和Kafka可以构建海量数据存储和交换系统。

第5章是用户行为离线分析，介绍了Flume采集技术和Hive离线分析技术，并基于Flume、Kafka、HBase、Hive等大数据技术构建了日志采集和分析平台。

第6章是基于Spark的用户行为实时分析，主要讲解了Spark的核心、Spark集群的构建、Spark Streaming实时计算、Spark SQL离线分析以及Structur-ed Streaming实时计算，并基于Spark Streaming和Structured Streaming完成了新闻项目的实时分析，基于Spark SQL完成了新闻项目的离线分析。

第7章是基于Flink的用户行为实时分析，主要讲解了Flink集群的构建、Flink DataStream实时计算以及Flink DataSet离线计算，并基于FlinkDataStream完成了新闻项目的实时分析，基于Flink DataSet完成了新闻项目的离线分析。

版权：机械工业出版社

意见反馈

我的书架

公众号

关注微信公众号