企业大数据处理:Spark、Druid、Flume与Kafka应用实践

企业大数据处理:Spark、Druid、Flume与Kafka应用实践

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

为企业大数据技术选型和大数据平台构建提供成熟的解决方案,包含大量实用案例。

内容简介

本书分为三大部分,共九章。第壹部分(第1章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第2~7章)首先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多种优化方式;然后,介绍了Druid的基本原理、集群的搭建过程、数据摄入过程,以及在查询过程中如何实现Druid查询API;接着介绍了日志收集系统Flume的基本架构和关键组件,以及分层日志收集架构的设计与实践;后介绍了分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监控系统。

作者简介

作者肖冠宇,资深大数据研发工程师,有多年的大数据工作经验,对高性能分布式系统架构、大数据技术、数据分析等有深入的研究。

曾就职于人民网人民在线和乐视网智能中心大数据部,主要从事大数据系统研发和广告数据分析;现就职于小米旗下的田米科技,担任大数据研发工程师。

章节目录

版权信息

前言

第一部分 准备工作

第1章 基础环境准备

1.1 软件环境准备

1.2 集群环境准备

1.3 小结

第二部分 核心技术

第2章 Spark详解

2.1 Spark概述

2.2 Spark SQL

2.3 Structured Streaming

2.4 Spark优化

2.5 小结

第3章 Druid原理及部署

3.1 架构设计

3.2 集群部署

3.3 小结

第4章 Druid数据摄入

4.1 模式设计

4.2 批量数据摄入

4.3 流数据摄入

4.4 数据更新

4.5 小结

第5章 Druid客户端

5.1 涉及组件

5.2 查询类型

5.3 查询API

5.4 小结

第6章 日志收集

6.1 Flume介绍

6.2 Flume应用实践

6.3 小结

第7章 分布式消息队列

7.1 Kafka介绍

7.2 安装部署

7.3 客户端API

7.4 小结

第三部分 项目实践

第8章 数据平台

8.1 需求分析

8.2 功能实现

8.3 小结

第9章 监控系统

9.1 InfluxDB

9.2 JMXTrans

9.3 Grafana

9.4 小结

企业大数据处理:Spark、Druid、Flume与Kafka应用实践是2017年由机械工业出版社有限公司出版,作者肖冠宇。

得书感谢您对《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Excel 2016数据处理与分析应用教程(微课版) 电子书
本书分为10章,内容包括Excel2016基础知识、工作表输入与编辑、公式、函数、图表、数据管理、数据透视分析、宏与VBA编程、财务分析函数应用、模拟分析与规划求解。全书采用由易到难、循序渐进的方式介绍了Excel常用的知识点,并通过大量的实例帮助读者理解和掌握所学内容。本书内容详实、实例丰富、操作步骤清晰、实用性强。本书可以作为高等院校相关专业的教学用书,也可以作为企事业单位人员提高数据分析能力
pandas数据处理与分析 电子书
本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。
大数据技术基础——基于Hadoop与Spark 电子书
将Hadoop和Spark组合起来进行剖析,呈现完整的大数据技术方案。
Kafka权威指南(第2版) 电子书
本书介绍Kafka的技术原理和应用技巧。
软件定义网络核心原理与应用实践 电子书
本书分为核心原理和应用实践两大部分,对软件定义网络(SDN)技术进行了全面剖析和深入解读。第一部分首先阐述了SDN的设计思想与体系架构,详细分析了软件定义网络的控制转发分离和可编程性两个突出属性,其次介绍了以OpenFlow为代表的SDN南向接口协议,以及北向和东向接U协议,接下来根据SDN的层次化架构,依次介绍了SDN数据平面、控制平面以及SDN应用案例,最后梳理总结J,SDN标准化进展以及学术