重复数据删除技术:面向大数据管理的缩减技术

重复数据删除技术:面向大数据管理的缩减技术

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

存储专家详解数据删除前沿技术,帮你高效提升大数据性能。

内容简介

本书是一本专门介绍重复数据删除技术的专业书籍。

全书共分为8章,以大数据存储为背景,介绍重复数据删除的关键技术及其应用场景。通过学习本书,读者能够了解信息存储技术基础、大数据管理主流技术和高效能存储管理基本知识,并可以深入理解重复数据删除技术的概念、分类、存储原理及关键技术,还可掌握前沿的应用,如感知源端重删机制和高可扩展集群重删技术,了解主流厂商重删存储相关产品及其应用案例。

本书面向从事大数据存储系统设计及相关技术研究和开发工作的读者。既可以作为存储系统架构师、软件开发工程师、产品或项目经理、数据中心运维人员等的实用工具书,还可以作为普通高等院校计算机和大数据科学相关专业的教学或科研人员、研究生、高年级本科生及相关培训机构学员的学习参考书。

作者简介

作者付印金博士,军事科学院系统工程研究院博士后、陆军工程大学讲师,现为中国计算机学会高级会员、信息存储技术/系统软件专业委员会委员。长期从事网络存储、大数据管理与云计算方向的课题研究。已主持完成国家自然科学基金、江苏省自然科学基金等课题多项,发表学术论文50多篇,申请和授权国家发明专利10余项。主讲过“计算机组成原理”、“计算机网络”与“云计算”等本科与研究生专业课程。

章节目录

版权信息

内容简介

序言 大数据时代数据量暴涨带来的问题

前言

第1章 概述

1.1 大数据简介

1.1.1 大数据定义和维度

1.1.2 大数据管理挑战

1.2 高效能存储管理

1.2.1 存储虚拟化

1.2.2 自动分层存储

1.2.3 自动精简配置

1.2.4 数据缩减技术

1.3 本章小结

参考文献

第2章 存储技术基础

2.1 存储介质

2.1.1 磁存储介质

2.1.2 光存储介质

2.1.3 电子存储介质

2.2 存储接口

2.2.1 IDE接口

2.2.2 SATA接口

2.2.3 SCSI接口

2.2.4 SAS接口

2.2.5 PCIE接口

2.2.6 FC接口

2.3 存储系统架构

2.3.1 存储器分层结构

2.3.2 RAID技术

2.4 网络存储系统

2.4.1 直接连接存储

2.4.2 网络附加存储

2.4.3 存储区域网络

2.4.4 基于对象存储

2.4.5 几种存储结构的比较

2.5 本章小结

参考文献

第3章 大数据管理技术

3.1 分布式计算框架

3.2 分布式文件系统

3.2.1 HDFS

3.2.2 Ceph

3.2.3 Lustre

3.3 NoSQL数据库

3.3.1 HBase

3.3.2 MongoDB

3.4 大数据仓库

3.4.1 Hive

3.4.2 Pig

3.4.3 Phoenix

3.5 本章小结

参考文献

第4章 重复数据删除存储系统

4.1 重复数据删除的概念及分类

4.1.1 基本概念

4.1.2 技术分类

4.2 重复数据删除存储原理

4.2.1 系统架构

4.2.2 主要步骤

4.2.3 衡量指标

4.3 重复数据删除技术应用场景

4.3.1 数据备份

4.3.2 归档存储

4.3.3 远程容灾

4.3.4 虚拟化环境

4.3.5 主存储系统

4.3.6 新型存储介质

4.4 相关产品及开源项目

4.4.1 企业产品

4.4.2 开源项目

4.5 本章小结

参考文献

第5章 重复数据删除关键技术

5.1 数据划分方法

5.1.1 全文件分块

5.1.2 静态分块

5.1.3 基于内容分块

5.1.4 基于应用分块

5.1.5 Delta编码

5.2 块索引查询优化技术

5.2.1 基于块局部性的优化策略

5.2.2 基于分层消重的优化策略

5.2.3 基于固态存储的优化策略

5.3 可扩展数据路由技术

5.3.1 基于分布式哈希表的块级数据路由技术

5.3.2 基于状态信息的超块级数据路由技术

5.3.3 基于相似性的文件级数据路由技术

5.4 块指纹计算加速方法

5.4.1 多核CPU加速方法

5.4.2 GPGPU加速方法

5.5 数据还原方法

5.5.1 主存储还原方法

5.5.2 备份存储还原方法

5.5.3 云存储还原方法

5.6 垃圾回收技术

5.6.1 引用计数法

5.6.2 标记清理法

5.7 高可靠数据配置策略

5.7.1 纠错编码技术

5.7.2 副本策略

5.8 数据安全技术

5.8.1 加密冲突

5.8.2 旁路攻击

5.8.3 所有权证明

5.9 本章小结

参考文献

第6章 应用感知源端重复数据删除机制

6.1 研究背景

6.2 相关研究工作

6.2.1 应用感知存储研究

6.2.2 基于源端重复数据删除的云备份研究

6.3 基本形式化模型

6.3.1 符号与基本定义

6.3.2 模型抽象与问题定义

6.4 研究动机

6.5 高效应用感知源端重复数据删除的设计与实现

6.5.1 ALG-Dedupe体系结构简介

6.5.2 文件大小过滤器

6.5.3 智能数据分块策略

6.5.4 应用感知的消重器

6.5.5 应用感知索引结构

6.5.6 段和容器管理

6.6 实验评估

6.6.1 实验平台和数据集

6.6.2 重复数据删除效果

6.6.3 重复数据删除效率

6.6.4 云备份窗口

6.6.5 能耗利用率

6.6.6 云存储代价

6.6.7 系统开销

6.7 本章小结

参考文献

第7章 高可扩展集群重复数据删除技术

7.1 研究背景

7.2 相关研究工作

7.3 基本模型与算法

7.3.1 超块相似性分析

7.3.2 基于手纹的数据路由算法

7.4 系统设计与实现

7.4.1 Σ-Dedupe系统架构

7.4.2 数据路由消息通信

7.4.3 相似索引查询优化

7.5 性能评估

7.5.1 实验平台和工作负载

7.5.2 验证度量

7.5.3 单节点并行重复数据删除效率

7.5.4 集群重复数据删除效率

7.6 本章小结

参考文献

第8章 重复数据删除存储案例分析

8.1 重复数据删除缩减率评估

8.2 主流厂商相关产品应用案例

8.2.1 Dell EMC公司产品案例

8.2.2 IBM公司产品案例

8.2.3 飞康软件公司产品案例

8.2.4 富士通公司产品案例

8.2.5 NetApp公司产品案例

8.2.6 Quantum公司产品案例

8.3 本章小结

参考文献

重复数据删除技术:面向大数据管理的缩减技术是2021年由清华大学出版社出版,作者付印金。

得书感谢您对《重复数据删除技术:面向大数据管理的缩减技术》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
医学动物实验技术 电子书
以常用、成熟的以及代表未来发展方向的医学实验技术,突出实验技术的可操作性和实用性。
实用麻醉技术手册 电子书
本手册全部由临床第一线的医师编写而成,内容丰富,具有极强的实用性。
深入React技术栈 电子书
全面讲述React技术栈的原创图书,pure render专栏主创倾力打造,覆盖React、Flux、Redux及可视化等内容。
技术基础主义研究 电子书
本书内容包括:技术基础主义的概念,技术基础主义的基本观点之一:古代技术和现代技术的区分,观点之二:技术价值一元论,观点之三:技术本质主义等。
日本近代技术文化观的演进 电子书
首先界定了技术文化和技术文化观的概念,在此基础上归纳出日本近代技术文化观的具体演进过程:主要分为和魂汉才阶段、和魂洋才阶段和脱亚入欧阶段。日本近代技术文化观的演进过程就是近代日本逐步认识近代技术文化的实证主义和理性主义的过程,也是逐渐理解技术伦理上的功利主义和怀疑主义的过程。最后比较中日两国在接受近代技术文化方面的异同。