Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

Hadoop生态系统利用Apache Kudu实现快速数据输入、分析。

内容简介

要在Hadoop生态系统中实现快速的数据输入、服务和分析,一直以来只有几个可用但是不够完美的解决方案,要么以缓慢的数据输入为代价实现快速分析,要么以缓慢的分析为代价实现快速的数据输入。这个问题现在有了解决办法,使用Apache Kudu基于列的数据存储,你可以很容易地对快速输入的数据进行快速的分析。这就是本书的内容。在这本书中,你将学习Kudu设计中的关键概念,以及如何用它构建快速、可扩展和可靠的应用程序。通过实际的示例,你将了解Kudu如何与其他Hadoop生态系统组件(如Apache Spark、SparkSQL和Impala)集成。

章节目录

版权信息

内容简介

O’Reilly Media, Inc.介绍

读者服务

前言

第1章 为什么会有Kudu

Kudu为什么重要

易用性驱动接纳度

新的应用场景

物联网

现有的实时分析方案

实时处理

硬件环境

Kudu在大数据生态中的独特位置

与其他生态系统的组件对比

与大数据组件对比——HDFS、HBase和Cassandra

小结

第2章 Kudu简介

Kudu的高层设计

Kudu中的角色

master服务器

tablet服务器

Kudu中的概念与机制

热点

分区

第3章 安装与运行

安装

使用Kudu Quickstart VM

使用Cloudera Manager

从源代码构建

软件包

Cloudera Quickstart VM

快速安装:3分钟或者更短

小结

第4章 Kudu的管理

为Kudu做规划

master服务器和tablet服务器

预写日志

数据服务器和存储

复制策略(replication strategy)

部署时的注意事项:是采用新集群还是现有集群

全新的仅有Kudu的集群

全新的包含Kudu的Hadoop集群

在现有的Hadoop集群中添加Kudu

tablet服务器和master服务器的Web UI

master服务器UI和tablet服务器UI

master服务器UI

tablet服务器UI

Kudu命令行接口

集群

文件系统

tablet副本

与Raft一致性相关的元数据

添加和删除tablet服务器

添加tablet服务器

删除tablet服务器

安全

一个简单的类比

Kudu的安全功能

基本的性能调优

Kudu的内存限制

维护管理器的线程

监控性能

未雨绸缪,远离麻烦

避免耗尽磁盘空间

容忍磁盘故障

备份

小结

第5章 Kudu常用的开发接口

客户端API

Kudu Client(客户端)

Kudu Table

Kudu DDL

Kudu扫描器(Scanner)读取模式

C++ API

Python API

准备Python开发环境

使用Python开发Kudu应用

Java

Java应用

Spark

在Impala中使用Kudu

第6章 表和模式设计

模式设计基础

在线事务处理/在线分析处理混合的模式设计

Lambda架构

OLTP/OLAP拆分

主键和列的设计

列模式的其他注意事项

分区的基础知识

范围分区

哈希分区

模式的更改

最佳实践和提示

分区

大对象

decimal(十进制数)

不重复的字符串

压缩

对象的命名

列的数量

二进制类型

网络包示例

小结

第7章 Kudu用例

实时物联网分析

预测建模

多平台混合方案

关于作者

封面图片

Kudu:构建高性能实时数据分析存储系统是2019年由电子工业出版社出版,作者 书写。

得书感谢您对《Kudu:构建高性能实时数据分析存储系统》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。