企业级大数据平台构建:架构与实现

企业级大数据平台构建:架构与实现

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书在讲解的过程中穿插介绍各种技术栈核心概念和背景, 帮助读者进行知识的应用与整合。

内容简介

这是一部教你如何从0到1架构与实现一个企业级大数据平台的著作,是作者在大数据和系统架构领域超过20000小时的经验总结。作者从横向视角出发,手把手教你如何拉通Hadoop体系技术栈,以此搭建一个真实可用、安全可靠的大数据平台。通过阅读本书,一定能从本书的内容中找到灵感和思路来应对实际工作中面对的问题。

作者简介

朱凯 资深大数据专家和架构师,现就职于远光软件,担任大数据事业平台部副总经理。

拥有10年IT从业经验,精通大数据、Java、Node.JS等技术。对大数据领域的主流技术与解决方案有深入研究,擅长分布式系统的架构设计与整合。曾主导过多款大数据平台级产品的规划设计与研发工作,一线实战经验丰富。

章节目录

版权信息

推荐序 思者常新,厚积薄发

前言

第1章 浅谈企业级大数据平台的重要性

1.1 缺乏统一大数据平台的问题

1.1.1 资源浪费

1.1.2 数据孤岛

1.1.3 服务孤岛

1.1.4 安全存疑

1.1.5 缺乏可维护性和可扩展性

1.1.6 缺乏可复制性

1.2 构建统一大数据平台的优势

1.3 企业级大数据平台需要具备的基本能力

1.3.1 集群管理与监控

1.3.2 数据接入

1.3.3 数据存储与查询

1.3.4 数据计算

1.3.5 平台安全与管理

1.4 平台辅助工具

1.5 本章小结

第2章 企业级大数据平台技术栈介绍

2.1 HDFS

2.1.1 概述

2.1.2 RAID技术

2.1.3 核心设计目标

2.1.4 命名空间

2.1.5 数据模型

2.1.6 Namenode和Datanode

2.1.7 使用场景

2.2 Zookeeper

2.2.1 概述

2.2.2 核心特性

2.2.3 命名空间

2.2.4 数据模型

2.2.5 节点状态监听

2.2.6 原子消息广播协议

2.2.7 使用场景

2.3 HBase

2.3.1 概述

2.3.2 数据模型

2.3.3 Regions

2.3.4 HBase Master

2.3.5 Region Server

2.3.6 MemStore与HFile

2.3.7 使用场景

2.4 YARN

2.4.1 概述

2.4.2 资源模型和Container

2.4.3 ResourceManager

2.4.4 ApplicationMaster

2.4.5 NodeManager

2.4.6 单一集群架构

2.4.7 工作流程

2.4.8 使用场景

2.5 Spark

2.5.1 概述

2.5.2 数据模型

2.5.3 编程模型和作业调度

2.5.4 依赖

2.5.5 容错

2.5.6 集群模式

2.5.7 使用场景

2.6 本章小结

第3章 使用Ambari安装Hadoop集群

3.1 概述

3.2 集群设计

3.2.1 主控节点

3.2.2 存储与计算节点

3.2.3 安全认证与管理节点

3.2.4 协同管理与其他节点

3.3 Ambari的安装、配置与启动

3.3.1 安装前的准备

3.3.2 安装Ambari-Server

3.3.3 Ambari-Server目录结构

3.3.4 配置Ambari-Server

3.3.5 启动Ambari-Server

3.4 新建集群

3.4.1 设置集群名称并配置HDP安装包

3.4.2 配置集群

3.5 Ambari控制台功能简介

3.5.1 集群服务管理

3.5.2 集群服务配置

3.5.3 辅助工具

3.6 本章小结

第4章 构建企业级平台安全方案

4.1 浅谈企业级大数据平台面临的安全隐患

4.1.1 缺乏统一的访问控制机制

4.1.2 缺乏统一的资源授权策略

4.1.3 缺乏Hadoop服务安全保障

4.2 初级安全方案

4.2.1 访问控制

4.2.2 数据授权与管理

4.3 本章小结

第5章 Hadoop服务安全方案

5.1 Kerberos协议简介

5.2 使用FreeIPA安装Kerberos和LDAP

5.2.1 安装FreeIPA

5.2.2 IPA-Server管理控制台功能介绍

5.2.3 IPA CLI功能介绍

5.3 开启Ambari的Kerberos安全选项

5.3.1 集成前的准备

5.3.2 集成IPA

5.3.3 测试Kerberos认证

5.4 本章小结

第6章 单点登录与用户管理

6.1 集成单点登录

6.1.1 CAS简介

6.1.2 安装CAS-Server

6.1.3 集成Knox网关与CAS-Server

6.1.4 集成Ranger与CAS-Server

6.1.5 集成Ambari与CAS-Server

6.2 实现统一的用户管理系统

6.3 使用Java程序调用脚本

6.4 创建Ranger扩展用户

6.5 本章小结

第7章 搭建平台管理端RESTful服务

7.1 搭建RESTful服务框架

7.2 用户查询

7.2.1 引入LDAP模块

7.2.2 配置LDAP

7.2.3 实现持久层

7.2.4 实现服务层

7.2.5 实现RESTful服务

7.2.6 整合用户管理

7.3 RESTful服务安全认证

7.3.1 用户登录服务

7.3.2 使用JWT认证

7.3.3 创建用户登录RESTful服务

7.3.4 认证过滤器

7.3.5 测试服务安全认证

7.4 数据仓库数据查询

7.4.1 创建JDBC连接

7.4.2 Kerberos登录

7.4.3 使用JDBC协议查询

7.4.4 实现服务层与RESTful服务

7.4.5 测试查询

7.5 数据仓库元数据查询

7.5.1 使用query服务查询数仓元数据

7.5.2 引入JdbcTemplate模块

7.5.3 增加Hive元数据库配置

7.5.4 实现元数据持久层

7.5.5 实现元数据服务层与RESTful服务

7.5.6 测试元数据查询

7.6 本章小结

第8章 Spark任务与调度服务

8.1 提交Spark任务的3种方式

8.1.1 使用Spark-Submit脚本提交

8.1.2 使用Spark Client提交

8.1.3 使用YARN RESTful API提交

8.2 查询Spark日志

8.3 任务调度

8.3.1 引入Quartz模块

8.3.2 增加Quartz配置

8.3.3 编写调度任务

8.3.4 改进空间

8.4 本章小结

附录A Hadoop简史

附录B Hadoop生态其他常用组件一览

附录C 常用组件配置说明

企业级大数据平台构建:架构与实现是2018年由机械工业出版社华章分社出版,作者朱凯。

得书感谢您对《企业级大数据平台构建:架构与实现》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Hadoop大数据平台集群部署与开发 电子书
Hadoop大数据平台集群部署与开发课程是云计算的一门专业平台课。本教材可为参与大数据开发与处理等相关流程的技术人员提供有益参考,为其介绍大数据处理技术Hadoop以及Hadoop家族体系的其他核心成员:Zookeeper、HBase、Hive、Flume、Sqoop等。本教材以分类任务的形式,具体介绍了“这些成员”的概念及实际应用,具有较强的综合性和实践性强,内容涉及广泛,讲解深入透彻。
大数据处理平台 电子书
本书从数据查询、数据分析和迭代计算平台3个方面对大数据处理平台的体系结构、基本原理、主流技术、国内外研究进展和成果进行了全面、深入的阐述,对大数据实时处理平台的架构和核心技术进行了展望。企业技术人员可参考本书选择合适的技术构建大数据处理平台或对现有平台进行优化;高校院所的科研人员可参考本书了解大数据管理的基本原理和现有研究成果;学生读者可通过学习本书全面了解大数据处理平台。同时,本书也适用于对大数
SDN/NFV:重构网络架构建设未来网络 电子书
深度解析SDN、NFV、云计算三大网络重构支柱技术.
产业互联网平台突围:在线支付系统设计与实现 电子书
从规划设计、系统架构、功能建设、渠道选择、项目实施和运营推广等全流程系统介绍产业互联网平台在线支付的设计和实现。
Spark海量数据处理:技术详解与平台实战 电子书
在数字经济时代,数据是重要的资源要素;同时,新的数据又在源源不断地产生,企业面临的一个基本问题就是如何管理和利用这些数据,这对传统的数据处理方法与分析框架提出了新的诉求和挑战,也是全球业界与学界为关心的问题。为了满足大数据时代对信息的快速处理的需求,一个分布式的开源计算框架Apache Spark应运而生。经过十年的发展,Spark已经成为目前大数据处理的标杆,在整个业界得到了广泛的使用。对大数据工程师来说,用Spark构建数据管道无疑是很好的选择,而对数据科学家来说,Spark也是高效的数据探索工具。 本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,技术理论与实战相结合,层次分明,循序渐进。本书不仅介绍了如何开发Spark应用的基础内容,包括Spark架构、Spark编程、SparkSQL、Spark调优等,还探讨了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习、Alluxio系统等高级主题,同时完整实现了一个企业背景调查系统,借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足业务需求。学习该系统可以使读者从实战中巩固所学,并将技术理论与应用实战融会贯通。 本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。