数据血缘分析原理与实践

数据血缘分析原理与实践

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

一本书掌握数据血缘应用全链路。

内容简介

全书所有内容均来自两位作者长期在世界500强企业从事数据相关工作的经验总结,书中不仅从原理层面带领读者深挖数据血缘本质,还有从实践层面对数据血缘的建设方法、核心技术、主流工具、在数据治理中的应用、典型行业应用案例进行了全方位剖析。

本书得到了美国南卡罗来纳大学教授、DAMA大中华区主席、中国大数据技术标准推进委员会专家、招商蛇口数字化管理及运营负责人、PowerData社区主理人等多位业界专家的鼎力推荐。

本书包括4篇14章,具体内容如下。

概念篇从企业面临的主要数据问题入手,逐渐延伸到对数据血缘的相关定义、特征、价值,以及数据组成的深度解读。这部分是真正落地数据血缘项目的基础,只有充分理解了这部分内容,才知道如何与上下游沟通协作。

建设篇先完整展示了一个可落地的数据血缘框架模型——“1355”框架模型,即1个周期、3种实体、5个类型、5个层级,这是数据血缘建设的基础模型;然后详细介绍了数据血缘实施路径,其中包括可能会面临的问题、具体建设方式和具体建设步骤。

技术篇重点数据血缘相关技术和产品,以及数据血缘分析的主要应用场景——数据治理。其中,包括3大数据血缘应用场景、7大数据血缘核心技术、9款主流的数据血缘产品,以及数据血缘在数据治理中的深度实践。

案例篇主要分享了互联网、服务、制造、零售快消等行业中数据血缘建设案例,帮助大家了解典型行业数据血缘的落地情况,以求获得一些启发。

作者简介

作者成于念,资深数据治理专家,具有近10年数据治理相关工作经验,曾就职于某世界500强企业,专门从事数据治理相关工作。曾为多家千亿级企业提供主数据、数据治理方向的培训服务,熟悉各种主流数据治理技术和产品,并发表过多篇关于数据相关文章及论文。

章节目录

版权信息

“数据之力技术丛书”编委会

前言

致谢

概念篇

第1章 走进数据血缘

1.1 企业目前面临的问题与挑战

1.1.1 互联网行业:数据安全面临严峻挑战

1.1.2 能源化工行业:数据共享互通能力待加强

1.1.3 装备制造行业:产品数据采集难

1.1.4 零售行业:数据分析势在必行

1.1.5 建筑行业:大数据治理能力亟须提升

1.1.6 从问题和挑战中找解决方案

1.2 揭开数据血缘的面纱

1.2.1 什么是数据和数据管理

1.2.2 什么是数据血缘

1.2.3 什么是数据血缘分析

1.2.4 什么是数据血缘可视化

1.2.5 数据血缘的特征

1.2.6 与数据血缘相关的概念

1.3 数据血缘分析是解决数据问题的灵丹妙药

1.3.1 破除数据质疑

1.3.2 数据变更影响范围快速评估

1.3.3 数据资产价值评估度量工具

1.3.4 为数据滥用加上一把“道德”之锁

1.4 本章小结

第2章 数据血缘中的数据组成部分

2.1 溯源血缘关系的重要依据——元数据

2.1.1 元数据的概念

2.1.2 元数据的数据血缘特征

2.2 确定血缘关系的黄金数据——主数据

2.2.1 主数据的概念

2.2.2 主数据的数据血缘特征

2.3 记录业务动态发生的数据——业务数据

2.3.1 业务数据的概念

2.3.2 业务数据的数据血缘特征

2.4 提供分析决策的重要成果——指标数据

2.4.1 指标数据的概念

2.4.2 指标数据的数据血缘特征

2.5 本章小结

建设篇

第3章 数据血缘分析框架模型

3.1 1个周期:数据全生命周期管理

3.2 3种实体:数据血缘实体结构

3.2.1 数据库血缘

3.2.2 数据表血缘

3.2.3 字段血缘

3.3 5个类型:数据血缘分类

3.3.1 逻辑血缘

3.3.2 物理血缘

3.3.3 时间血缘

3.3.4 操作血缘

3.3.5 业务血缘

3.4 5个层级:构建基础平台,支撑数据血缘分析

3.4.1 血缘采集层

3.4.2 血缘处理层

3.4.3 血缘存储层

3.4.4 血缘接口层

3.4.5 血缘应用层

3.5 本章小结

第4章 数据血缘实施路径

4.1 数据血缘实施过程中的问题与难点

4.1.1 血缘质量不高

4.1.2 实施路径不清晰

4.1.3 数据血缘关系自动解析难

4.2 数据血缘建设方式

4.2.1 常见的3种建设方式的优劣势

4.2.2 建设方式注意事项

4.3 数据血缘建设步骤

4.3.1 明确数据血缘目标

4.3.2 制定数据血缘需求范围

4.3.3 构建数据血缘系统

4.3.4 完成数据血缘收集

4.3.5 完成数据血缘初始化

4.3.6 实现数据血缘的可视化

4.4 本章小结

技术篇

第5章 数据血缘分析应用

5.1 数据开发应用场景

5.2 数据资产应用场景

5.3 数据安全应用场景

5.4 本章小结

第6章 数据血缘技术

6.1 概述

6.2 数据采集技术

6.2.1 ETL技术应用

6.2.2 SQL解析应用

6.3 数据建模

6.3.1 概念建模

6.3.2 逻辑建模

6.3.3 物理建模

6.4 数据可视化技术

6.4.1 数据可视化工具

6.4.2 图形库和框架

6.5 其他相关技术

6.5.1 数据挖掘技术

6.5.2 区块链技术

6.5.3 人工智能技术

6.5.4 大数据技术

6.6 本章小结

第7章 数据血缘产品

7.1 国外主流数据血缘产品介绍

7.1.1 开源的Apache Atlas平台

7.1.2 社交网站LinkedIn的数据平台

7.2 国内主流数据血缘产品介绍

7.2.1 马哈鱼数据血缘平台

7.2.2 FineBI数据可视化工具

7.2.3 亿信元数据管理平台

7.2.4 飞算SoData数据机器人

7.3 其他数据血缘产品介绍

7.3.1 Informatica数据平台

7.3.2 Alation数据平台

7.3.3 Collibra数据平台

7.4 本章小结

第8章 数据治理中的数据血缘应用

8.1 数据治理体系简介

8.1.1 数据管理、数据治理与数据资产管理

8.1.2 DAMA的数据治理体系

8.1.3 DMM和DCMM

8.1.4 华为的数据治理体系

8.1.5 阿里的数据治理体系

8.2 数据治理与数据血缘的关系

8.3 数据血缘在数据治理中的应用

8.3.1 数据血缘在数据质量提升中的应用

8.3.2 数据血缘在数据架构中的应用

8.3.3 数据血缘在数据建模和设计中的应用

8.3.4 数据血缘在数据安全中的应用

8.4 本章小结

第9章 数据血缘的平台建设

9.1 数据血缘相关平台介绍

9.1.1 元数据管理平台

9.1.2 主数据管理平台

9.1.3 数据仓库

9.1.4 数据治理平台

9.1.5 数据管理驾驶舱

9.2 数据相关平台建设路径

9.2.1 需求分析及调研

9.2.2 开发及测试

9.2.3 上线试运行

9.2.4 开展项目验收

9.2.5 持续优化迭代

9.3 本章小结

案例篇

第10章 互联网行业:字节跳动的数据血缘建设案例

10.1 数据血缘建设背景

10.2 数据血缘构建解析

10.2.1 数据血缘采集

10.2.2 数据血缘的关键指标

10.3 数据血缘的未来趋势

第11章 服务行业:四大全球知名企业的数据实践

11.1 民宿短租公寓预订平台Airbnb

11.2 电子商务平台Amazon

11.3 会员订阅制的流媒体播放平台Netflix

11.4 叫车服务公司Uber

第12章 制造行业:全球知名企业的数据实践

12.1 百年企业通用电气

12.2 “欧洲工业之母”西门子

第13章 零售快消行业:全球知名企业的数据实践

13.1 大型零售商沃尔玛

13.2 西班牙快时尚零售商Zara

展望篇

第14章 未来展望

14.1 数据血缘与数据智能的结合

14.2 数据血缘与数据隐私的平衡

14.3 数据血缘在人工智能中的应用

14.4 数据血缘在模型开发和模型审计中的应用

14.5 数据血缘在模型解释和模型可解释性中的应用

14.6 数据血缘在智能决策中的应用

14.7 数据血缘与区块链的关系

14.7.1 数据的确权问题

14.7.2 数据的经济特征问题

14.7.3 数据的价值测量问题

后记1 数据血缘救赎之路

后记2 从ERP咨询到数据治理

数据血缘分析原理与实践是2024年由机械工业出版社出版,作者成于念。

得书感谢您对《数据血缘分析原理与实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
边缘计算原理与实践 电子书
本书对边缘计算的发展历史与趋势、几种典型的边缘计算技术的基本架构与原理进行了阐述,并对边缘计算涉及的关键技术与最新进展、部署方案、应用场景与实践进行了详细讲解。本书涉及的内容广泛、技术思想凝炼,突出核心原理和关键技术的阐述,同时力图深入讲解边缘计算开源平台的使用过程。本书对从事边缘计算技术研发的专业人士、网络运营管理人员、相关专业高校学生以及对边缘计算技术感兴趣的读者,都具有一定的参考价值。
大数据测试技术 数据采集、分析与测试实践(在线实验+在线自测 ) 电子书
本书从工程角度出发,阐述了运用大数据技术进行软件测试的方法和实现过程。全书共11章,介绍了大数据测试思维、手机联网数据的收集方法、数据格式的转换方法、大数据的处理方法、软件缺陷挖掘技术及实践项目的应用等。本书第1章介绍了大数据的测试方法和思维方式,随后每一章都通过案例来讲解大数据技术的相关理论及其测试应用。除第1章外,每章最后都提供了思考题来帮助读者回顾和巩固本章的学习内容,本书最后还提供了思考题
推荐系统技术原理与实践 电子书
本书系统介绍推荐系统的技术理论和实践。首先介绍推荐系统的基础知识;然后介绍推荐系统常用的机器学习和深度学习模型;接着重点介绍推荐系统的4层级联架构,包括召回、粗排、精排和重排,以及谷歌、阿里巴巴等大型互联网公司在4层级联架构中的模型设计和实现原理;紧接其后介绍多目标排序在推荐系统中的应用,具体介绍阿里巴巴、谷歌等大型互联网公司的实践;最后从不同角度审视推荐系统,介绍公平性问题、知识蒸馏、冷启动等各
深度学习原理与 TensorFlow实践 电子书
本书介绍了深度学习原理与TensorFlow实践。着重讲述了当前学术界和工业界的深度学习核心知识:机器学习概论、神经网络、深度学习。着重讲述了深度学习的实现以及深度学习框架TensorFlow:Python编程基础、TensorFlow编程基础、TensorFlow模型、TensorFlow编程实践、TensorFlowLite和TensorFlow.js、TensorFlow案例--医学应用和S
Excel数据处理与分析 电子书
聚焦Excel在财会工作中的典型应用,呈现Excel强大的财会管理功能!提升办公效率! 案例设置基于实际工作过程,案例不仅涉及会计和财务部门日常办公的各个方面,而且这些办公案例之间紧密关联。读者既学会了Excel功能,又熟悉了会计与财务管理岗位的办公业务。 10小时与本书内容同步的视频讲解,光盘与图书内容完美结合。 赠8小时Windows 7视频讲解,轻松运用主流操作系统。 赠1200个Office 2013应用技巧,自如应对工作中的各种状况。 赠900套Word/Excel/PPT 2013实用模板,稍加修改即可应用到工作中。 赠视频讲解常用办公设备和办公软件的使用方法,全面提升办公技能。 赠财务/人力资源/生产/文秘/行政等岗位工作手册,提高效率的有效工具。 赠电脑日常维护与故障排除常见问题解答,轻松搞定常见电脑问题。