大数据存储技术免费阅读在线

简介: 本书由浅入深,层层深入,从基本原理着手,逐步过渡到大数据存储的新技术的发展。

丛书总序

大数据、人工智能、云计算、物联网、移动互联网和产业互联网等成为新一代信息技术的特征,其中大数据与上述技术和应用都有密切关系。大数据来自移动互联网、产业互联网和物联网等,其存储需要云计算,其挖掘依靠人工智能,而人工智能也有赖于大数据的支撑,大数据是产业互联网的重要基础。大数据不仅可以用于社会的精细化管理,更好地服务民生,大数据产业也将形成信息产业新的分支,其间接的产业影响将更大。可以说,大数据是数字经济的重要支柱。

很多国家都将大数据作为新时期的国家发展战略。2015年,国务院印发大数据发展的首个权威性、系统性文件《促进大数据发展行动纲要》,2016年国家发展和改革委员会批复了13个大数据领域的国家工程实验室,我国一些省市也纷纷制定大数据发展战略与规划。当前,我国在大数据共享开放、大数据资源开发、大数据技术研发、大数据挖掘应用、大数据产业培育、大数据安全管理、大数据人才培养和大数据法规研究等方面全面部署,为我国实现供给侧结构性改革,促进产业升级和转型,提升国家竞争力,争取在国际领域的话语权和实现跨越式发展起到了不可或缺的作用。

然而,我国的大数据发展也面临一些亟待解决的问题,如基础研究薄弱、创新能力不强、产业链条缺口、数据资源封闭、法律法规滞后、数据安全不力、数据人才短缺和数据设施布局不合理及利用率不高等。为了使我国的大数据应用与产业可持续健康发展,需要多管齐下,其中普及大数据科学是重要的一环。为此,《学术中国·大数据》丛书编委会组织多个大数据领域优秀的研究团队的专家,基于国家973计划、863计划、国家自然科学基金、国家重点研究计划等科研项目的创新研究成果和国内外大数据应用的成功实践,编写了这套丛书,内容涵盖大数据存储、数据管理、数据挖掘、分析平台、优化算法等核心技术领域。

本丛书的出版对传播大数据科学知识、推动大数据的学术探讨、鼓励大数据领域的产学研用协同创新、促进大数据标准化研究、加快大数据核心技术研发、培训大数据技术人才、引导大数据应用与产业化发展以及完善大数据有关的制度建设,都将起到积极作用。

2017年12月

前言

大数据存储是为保存、管理和检索海量数据而专门设计的基础存储设施。计算机系统结构正在从以计算为中心向以数据为中心发展。这种发展趋势对存储系统在容量、性能、可用性、扩展性和成本等方面都提出了更高要求。本书主要讨论大数据存储系统的关键技术以及相关研究进展。本书的内容组织首先从基本原理着手,并逐步过渡到大数据存储的新技术的发展。本书的基本原理部分对分布式文件系统和分布式键值存储展开讨论,介绍其中的关键问题与解决手段。在读者对大数据存储知识有了初步了解之后,本书余下的部分将介绍大数据存储系统的关联技术与进展,包括基于群组的网络文件共享、存储系统的容灾、重复数据删除技术和大数据存储纠删码技术。

在阅读本书之前,读者应当了解计算机系统方面的基础知识,包括常用的数据结构、文件系统、网络基础知识等。

本书主要内容安排如下:

第1章是绪论,主要介绍大数据存储的基本形式、关键技术,以及本书的组织结构;

第2章为分布式文件系统,以谷歌文件系统为例,讨论了构建分布式文件系统所需的各项关键技术;

第3章为分布式键值对存储,主要介绍如何通过哈希以及B+树的方式,实现从单机键值对存储到分布式键值对存储的扩展;

第4章为面向社区共享的网络文件共享系统,介绍了一个基于群组的网络文件共享系统,重点讨论分布式文件系统与用户管理的结合,以及分布式文件系统中的多版本数据管理方法;

第5章为存储容灾系统,介绍了实现存储容灾需用到的各项关键技术,主要包括大数据存储的容灾备份以及快速的服务恢复方法;

版权:人民邮电出版社