数据工程之道:设计和构建健壮的数据系统

数据工程之道:设计和构建健壮的数据系统

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书全面而深入地介绍数据工程生命周期。

内容简介

书中展示了如何组合运用各种云技术来满足下游数据消费者的需求。

本书分为三部分:第一部分介绍了数据工程的定义、数据工程的生命周期、合理的架构设计和帮助技术选型的框架;第二部分深入介绍了数据工程生命周期的每个阶段——数据生成、存储、获取、转换和服务;第三部分讨论了数据工程的重要部分——安全和隐私。

附录还介绍了与处理数据文件和评估数据系统的性能有关的序列化和压缩,以及云网络。

本书适合软件工程师、数据科学家、数据工程师和数据分析师等相关技术人员阅读。

作者简介

作者乔·里斯,“数据恢复科学家”,也是数据工程师和架构师。他是Ternary Data的首席执行官和联合创始人,在统计建模、预测、机器学习、数据工程、数据架构等领域有丰富的从业经验。

章节目录

版权信息

O'Reilly Media, Inc.介绍

本书赞誉

译者序

前言

第一部分 基础和构建块

第1章 数据工程概述

1.1 什么是数据工程

1.2 数据工程技能和活动

1.3 组织内部的数据工程师

1.4 总结

1.5 补充资料

第2章 数据工程生命周期

2.1 什么是数据工程生命周期

2.2 数据工程生命周期中的主要底层设计

2.3 总结

2.4 补充资料

第3章 设计好的数据架构

3.1 什么是数据架构

3.2 好的数据架构的原则

3.3 主要架构概念

3.4 数据架构的示例和类型

3.5 谁参与了数据架构的设计

3.6 总结

3.7 补充资料

第4章 根据数据生命周期选择技术

4.1 团队大小和能力

4.2 加速市场化

4.3 互操作性

4.4 成本优化和商业价值

4.5 现在与未来:不变的与暂时的技术

4.6 部署位置

4.7 构建与购买

4.8 单体与模块化

4.9 无服务器与服务器

4.10 优化、性能和基准战争

4.11 底层设计及其对技术选择的影响

4.12 总结

4.13 补充资料

第二部分 深入数据工程生命周期

第5章 源系统中的数据生成

5.1 数据源:数据是如何生成的?

5.2 源系统:主要观点

5.3 源系统实际细节

5.4 你和谁一起工作

5.5 数据底层设计及其对源系统的影响

5.6 总结

5.7 补充资料

第6章 存储

6.1 数据存储的原材料

6.2 数据存储系统

6.3 数据工程存储抽象

6.4 存储的重要思想和趋势

6.5 你和谁一起工作

6.6 底层设计

6.7 总结

6.8 补充资料

第7章 获取

7.1 什么是数据获取

7.2 数据获取阶段的关键工程考虑因素

7.3 批量获取的考虑因素

7.4 消息和流获取的考虑因素

7.5 获取数据的方式

7.6 你和谁一起工作

7.7 底层设计

7.8 总结

7.9 补充资料

第8章 查询、建模和转换

8.1 查询

8.2 数据建模

8.3 转换

8.4 你和谁一起工作

8.5 底层设计

8.6 总结

8.7 补充资料

第9章 为分析、机器学习和反向ETL提供数据服务

9.1 提供数据服务的常见关注点

9.2 分析

9.3 机器学习

9.4 数据工程师需要理解的机器学习知识

9.5 为分析和机器学习提供数据服务的方法

9.6 反向ETL

9.7 你和谁一起工作

9.8 底层设计

9.9 总结

9.10 补充资料

第三部分 安全、隐私和数据工程的未来

第10章 安全和隐私

10.1 人员

10.2 流程

10.3 技术

10.4 总结

10.5 补充资料

第11章 数据工程的未来

11.1 常青的数据工程生命周期

11.2 复杂性的下降和易用的数据工具的兴起

11.3 云数据操作系统及其高互通性

11.4 “企业级”数据工程

11.5 数据工程师的头衔和职责将发生的变化

11.6 超越现代数据栈,迈向实时数据栈

11.7 总结

附录A 序列化和压缩技术的细节

附录B 云网络

关于作者

关于封面

数据工程之道:设计和构建健壮的数据系统是2024年由机械工业出版社出版,作者[美] 乔·里斯。

得书感谢您对《数据工程之道:设计和构建健壮的数据系统》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python全栈数据工程师养成攻略 电子书
  1.上海交通大学机器学习、人工智能专家亲笔力作。   2.超过900分钟的全程视频讲解,扫一扫二维码,跟着视频轻松学。   3.网易云课堂同名人气课程,全部五星好评。
Python高手修炼之道:数据处理与机器学习实战 电子书
适读人群 :1.没有编程知识的新手 不同于一般的基础语法讲解教程,本书并未将Python 开发限定于某个集成开发工具(IDE)中,而是采用交互式编程的方式来强化读者对语言特性的理解,帮助新手读者真正理解Python 语言和Python 编程。2.从未接触过Python 语言,但了解一点编程知识的初学者 本书通过对基础知识高度的提炼和概括,以避免初学者陷入低级且冗长的细节知识点而心生懈怠;同时,本书为初学者规划了从初级到高级的编程技能提升路线图。3.具有一定基础的Python 程序员 本书可以作为案头工具书来使用。本书从基础语法、基本技能讲起,涵盖了科学计算、数据处理、机器学习等领域,示例代码涉及30 余个模块的使用。 构建从Python入门到数据分析到机器学习的路线图,入门有章可循; 1.讲解独到,常见盲点趣解析 作者基于多年的经验积累,善于总结概括初学Python过程中的误区。 2.内容全面,常用工具全涵盖 书中介绍的Python工具包覆盖Numpy、Matplotlib、Pandas、SciPy、Scikit-Learn,方便读者拓展实用技能、掌握工作利器。 3.拓展训练,重点知识有强化 语感训练100题、Python内置函数(类)手册、从新手到高手的100个模块,强化知识点的掌握。 4.代码完整,随时动手可复现 本书提供了完整、可验证的代码,方便读者动手练习并强化理解。
大数据时代的数据挖掘 电子书
(1)内容全面,覆盖当前数据挖掘的主要应用。在介绍每个应用案例时,详细阐述应用的背景,该领域中数据的来源和特点,数据采集与预处理方式,应用领域中数据挖掘的任务和实施数据挖掘技术的难点。同时提供相应的数据挖掘算法分析、工具设计以及系统实现。 (2)条理清晰、便于理解。一方面,面向热爱和关心数据挖掘技术的学术界和工业界读者,帮助他们更好地理解研究的目的和应用的基础;另一方面,让没有太多相关技术背景的读者可以通过阅读本书能够了解数据挖掘的意义和价值,可以看出数据挖掘是如何被广泛地应用于实际案例并成为解决各种问题的核心工具。
大数据营销 电子书
本书分为4篇13章。其中,第1章到第4章属于基础篇,主要介绍大数据概述、大数据营销概述、大数据时代的消费者行为分析、大数据广告营销等内容。第5章、第6章属于工具篇,主要介绍精准营销、大数据搜索营销等内容。第7章到第11章属于智能应用篇,主要介绍当前热门的大数据营销应用领域,包括App营销、微信营销、微博营销、O2O营销、短视频与直播营销等内容。第12章、第13章属于拓展篇,主要介绍跨界营销、其他大
云计算数据中心规划与设计 电子书
本书对云计算技术、基于SDN网络通信技术和全新能源技术进行了系统总结和梳理。