数据湖仓

数据湖仓

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

“数据仓库之父”比尔·恩门作品,数据湖仓构建指南。

内容简介

数据湖仓是一个现代化的开放式架构,拥有当今热门的开源数据技术的广度和灵活性。本书从初学者的角度出发,通过对数据湖仓重要概念的剖析,对数据湖仓的相关知识进行深入浅出的讲解。

全书共18章,对数据湖仓的基础知识、数据工程、业务价值、数据集成等方面进行深入探讨,同时展望数据架构的演化趋势,使读者能够领会数据湖仓的精髓,最终轻松、全面地管理数据湖仓项目。

作者简介

作者比尔·恩门,比尔·恩门被誉为“数据仓库之父”,出版了60本书并被译为多种语言,《计算机世界》将他评为计算机专业历史上具影响力的十大人物之一。

章节目录

版权信息

内容提要

本书编译组

译者序

前言

资源与支持

第1章 让数据可信

1.1 做一个成熟的终端用户

1.2 不断攀升的可信目标

1.3 可信数据的要素

1.4 小结

第2章 基础数据

2.1 构建应用程序

2.2 以人工智能医疗为例

2.3 基础数据的组成要素

2.4 小结

第3章 如何避免不良数据

3.1 输入错误

3.2 键的问题

3.3 重复记录

3.4 拼写错误

3.5 兼容性

3.6 编制文档

3.7 小结

第4章 不同类型的数据

4.1 数据量

4.2 数据的业务价值

4.3 数据的访问概率

4.4 数据降级

4.5 基于大容量存储器的数据归档机制

4.6 小结

第5章 数据抽象

5.1 结构化数据模型

5.2 本体和分类标准

5.3 模拟/物联网数据的蒸馏算法

5.4 小结

第6章 结构化数据

6.1 业务交易生成的数据

6.2 结构化记录

6.3 键

6.4 联机事务处理

6.5 组织数据

6.6 小结

第7章 文本数据

7.1 文本数据的类型

7.2 使用文本数据时的语言障碍

7.3 多义词

7.4 提取业务的含义

7.5 小结

第8章 模拟/物联网数据

8.1 数据有用性的差异

8.2 摄像头

8.3 人工审视

8.4 日期分隔

8.5 数据筛选

8.6 阈值方法

8.7 时间排序方法

8.8 小结

第9章 大容量存储器与数据湖仓

9.1 大容量存储器的优缺点

9.2 访问概率

9.3 索引

9.4 元数据和大容量存储器

9.5 小结

第10章 数据架构与数据工程

10.1 两个角色如何通力配合

10.2 角色与数据类型

10.3 小结

第11章 业务价值

11.1 业务价值才是驱动力

11.2 一切都离不开钱

11.3 基础数据

11.4 难以协调

11.5 领域

11.6 小结

第12章 数据需要的层次

12.1 数据获取

12.2 数据传输与存储

12.3 数据转换

12.4 数据标签、整合与汇聚

12.5 数据分析与机器学习

12.6 小结

第13章 数据湖仓中的数据集成

13.1 不同种类数据的集成

13.2 自动集成

13.3 ETL

13.4 文本ETL

13.5 数据蒸馏算法

13.6 小结

第14章 分析

14.1 结构化数据分析

14.2 文本数据分析

14.3 模拟/物联网数据分析

14.4 结构化数据和文本数据的结合

14.5 连接3个环境

14.6 执行分析

14.7 小结

第15章 软数据

15.1 电子表格数据

15.2 互联网数据

15.3 政府数据

15.4 小结

第16章 描述性数据

16.1 数据模型

16.2 元数据

16.3 结构化数据转换

16.4 结构化数据源

16.5 数据选择标准

16.6 数据定义语言

16.7 数据编码

16.8 数据关系

16.9 文本数据

16.10 本体

16.11 分类标准

16.12 关联

16.13 上下文情境

16.14 文本数据源

16.15 模拟/物联网数据

16.16 算法

16.17 阈值

16.18 时间排序

16.19 模拟/物联网数据源

16.20 数据血缘

16.21 小结

第17章 数据目录

17.1 永久维护

17.2 开放

17.3 不同数据类型的内部结构

17.4 小结

第18章 数据架构的演化

18.1 伊始

18.2 应用程序

18.3 磁带文件

18.4 硬盘存储

18.5 OLTP

18.6 个人计算机

18.7 4GL处理技术和数据抽取应用程序

18.8 数据仓库

18.9 数据集市

18.10 互联网和物联网数据

18.11 数据湖

18.12 数据湖仓

18.13 小结

数据湖仓是2024年由人民邮电出版社出版,作者[美] 比尔·恩门。

得书感谢您对《数据湖仓》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
图解数据科学 电子书
解码数据科学的奥秘,驱动业务决策和创新。
云计算与大数据 电子书
本书抽丝剥茧地讲述了云计算简史、大数据的前世今生,纠正了一些时下被“误导”的观点,分析了大数据与Hadoop的关系、云计算与大数据的关系,从开源vs.闭源的角度阐释了整个业界的软件定义趋势、商用硬件趋势并预言了硬件回归的必然趋势,最后用案例讲解了云计算或大数据系统体系架构的设计与实现。
趣学数据结构 电子书
适读人群 :本书可作为程序员的学习用书,也适合没有太多编程经验但又对数据结构有强烈兴趣的初学者使用,同时也可作为高等院校计算机、数学及相关专业的师生用书,或学科竞赛的辅导用书和培训学校的教材。   (1)完美图解 丰富实例,复杂问题简单化   为基本操作配以图解,用数据结构解决生活中的实际问题,学习过程更加轻松有趣。   (2)原理分析 实战演练,真正地学以致用   通俗化讲解基础知识,在实战中体会数据结构的设计和操作,锻炼独立思考的能力。   (3)配套代码 在线答疑,为学习保驾护航   提供书中的范例程序源代码、练习题以及答案解析,并在博客和QQ群中答疑解惑。
大数据原理与技术 电子书
本书则是华为公司针对华为ICT学院大数据方向的在读学生,专门组织合作伙伴和华为公司内部员工开发的标准化教材,这套教材的目的在于循序渐进地帮助华为ICT学院大数据方向的学生掌握大数据技术的基本原理与应用场景,能够在面对真实的业务场景时,独立完成大数据平台的搭建、维护及故障的处理。
《企业数据治理那些事》 电子书
一本书讲透企业数据治理的基本法则、风险规避策略,指导企业实现数据治理项目的成功落地。