数据质量管理:数据可靠性与数据质量问题解决之道

数据质量管理:数据可靠性与数据质量问题解决之道

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

一本关于如何清洗、整理和理解数据的手册。

内容简介

本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。

之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。接着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。

章节目录

版权信息

O'Reilly Media,Inc.介绍

本书赞誉

译者序

前言

第1章 为什么数据质量值得关注

1.1 什么是数据质量

1.2 构筑当下

1.3 总结

第2章 对可靠数据系统的构建模块进行组装

2.1 了解事务型数据和分析型数据之间的差异

2.2 是什么让它们有所不同

2.3 数据仓库与数据湖

2.4 收集数据质量指标

2.5 设计数据目录

2.6 构建数据目录

2.7 总结

第3章 收集、清洗、转换和测试数据

3.1 收集数据

3.2 清洗数据

3.3 批处理与流处理

3.4 流处理的数据质量

3.5 数据标准化

3.6 运行分析型数据转换

3.7 警报和测试

3.8 使用Apache Airflow管理数据质量

3.9 总结

第4章 数据管道的监控和异常检测

4.1 了解已知的未知和未知的未知

4.2 构建异常检测的算法

4.3 为模式和沿袭构建监控器

4.4 使用Python和机器学习扩展异常检测

4.5 深入探究:其他有用的异常检测方法

4.6 为数据仓库和数据湖分别设计数据质量监控器

4.7 总结

第5章 为数据可靠性进行架构设计

5.1 在摄取数据时评估并维护高数据可靠性

5.2 度量和维护管道中的数据质量

5.3 了解下游的数据质量

5.4 构建数据平台

5.5 建立对数据的信任

5.6 案例分析:Blinkist

5.7 总结

第6章 解决大规模数据质量问题

6.1 在软件研发过程中解决数据质量问题

6.2 数据事件管理

6.3 事件应对与缓解策略

6.4 案例分析:PagerDuty公司的数据事件管理

6.5 总结

第7章 构建端到端的数据沿袭

7.1 为现代数据系统构建端到端字段级别的沿袭

7.2 案例分析:在福克斯公司构建数据可靠性

7.3 总结

第8章 推广和普及数据质量

8.1 将“数据”视为产品

8.2 将数据视为产品的经验

8.3 在数据平台中建立信任

8.4 分配数据质量所有权

8.5 为数据质量创建责任制

8.6 平衡数据可访问性与数据信任

8.7 对数据进行认证

8.8 实施数据认证流程的七个步骤

8.9 案例分析:Toast寻找适合其数据团队结构的过程

8.10 提高数据素养

8.11 优先考虑数据治理和合规性

8.12 构建数据质量策略

8.13 总结

第9章 现实世界中的数据质量:对话和案例分析

9.1 为更高的数据质量构建数据网格

9.2 为什么要实施数据网格

9.3 与Zhamak Dehghani的对话:数据质量在数据网格中的作用

9.4 案例分析:Kolibri Games的数据栈之旅

9.5 让元数据为业务服务

9.6 通过数据发现释放元数据的价值

9.7 决定何时开始处理公司的数据质量问题

9.8 总结

第10章 开创可靠数据系统的未来

10.1 要积极主动,而不是消极被动

10.2 对数据质量和数据可靠性未来的预测

10.3 何去何从

作者介绍

封面介绍

数据质量管理:数据可靠性与数据质量问题解决之道是2024年由机械工业出版社出版,作者[美] 巴尔·摩西。

得书感谢您对《数据质量管理:数据可靠性与数据质量问题解决之道》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Excel数据获取与处理 电子书
本书以项目为导向,由浅入深地介绍Excel2016在数据获取与处理中的应用。全书共14个项目,项目1简单介绍Excel2016的界面,以及工作簿、工作表、单元格的概念;项目2介绍各种类型数据的输入;项目3介绍如何美化工作表;项目4介绍如何使用Excel获取文本数据;项目5介绍如何使用Excel获取网站数据;项目6介绍如何使用Excel获取MySQL数据库中的数据;项目7介绍如何对数据进行排序;项目
大数据营销 电子书
本书分为4篇13章。其中,第1章到第4章属于基础篇,主要介绍大数据概述、大数据营销概述、大数据时代的消费者行为分析、大数据广告营销等内容。第5章、第6章属于工具篇,主要介绍精准营销、大数据搜索营销等内容。第7章到第11章属于智能应用篇,主要介绍当前热门的大数据营销应用领域,包括App营销、微信营销、微博营销、O2O营销、短视频与直播营销等内容。第12章、第13章属于拓展篇,主要介绍跨界营销、其他大
Python数据分析与应用 电子书
本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步展开介绍相关的理论知识点,推导生成可行的解决方案, 后落实在任务实现环节。 全书大部分章节紧扣任务需求展开,不堆积知识点,着重于解决问题时思路的启发与方案的实施。通过从任务需求到实现这一完整工作流程的体验,帮助读者真正理解与消化Python数据分析与应用。 书中案例全部源于企业真实项目,可操作性强,引导读者融会贯通,并提供源代码等相关学习资源,帮助读者快速掌握大数据相关技能。
数据结构与算法详解 电子书
本书旨在讲解数据结构和算法的核心知识。本书主要内容包括线性表、栈、队列、串、数组、广义表、树、图、查找算法、排序算法、递推算法、递归算法、枚举算法、贪心算法、回溯算法、数值算法和实用算法等。本书适合计算机专业的学生、软件开发专业人员等阅读。
Excel数据分析与处理 电子书
全书分为4篇:第1篇为应用基础篇,主要介绍Excel的基本功能和基本操作;第2篇为数据处理篇,主要介绍使用公式和函数实现数据处理的方法,以及直观显示数据的方法;第3篇为数据分析篇,主要介绍Excel数据管理、数据分析方面的基本功能和分析方法;第4篇为拓展应用篇,主要介绍宏和协同功能。