云系统管理:大规模分布式系统设计与运营

云系统管理:大规模分布式系统设计与运营

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

资深云计算专家十余年经验结晶,全方位介绍大规模分布式系统的设计和运营。

内容简介

本书分为两个部分——设计和运营。

第一部分捕捉我们在大规模、复杂、基于云的分布式计算系统设计上的想法。在引言之后,我们从底向上逐层介绍设计的每个要素。我们从系统管理员(而非计算机科学家)的角度介绍分布式系统,要运营一个系统就必须理解其内部原理。

第二部分描述如何运营这些系统。前面几章介绍最基本的问题。后面几章深入更为复杂的技术活动,然后是概要规划和将以上要素组合起来的战略。

作者简介

作者托马斯·A·利蒙切利,具有国际声誉的作家、演说家和系统管理专家。在Google NYC的7年中,他曾经担任Blog Search(博客搜索)、Ganeti和各种内部企业IT服务项目的SRE。他现在于Stack Exchange公司任SRE,该公司主办ServerFault.com和Stack-Overflow.com网站。Thomas的第一份有报酬的系统管理工作是1987年在德鲁大学学习时候获得的,此后在小型和大型公司中任职。

章节目录

版权信息

译者序

前言

作者简介

引言

第一部分 设计:构建系统

第1章 分布式世界中的设计

1.1 大规模的可见性

1.2 简单的重要性

1.3 构成

1.4 分布状态

1.5 CAP原则

1.6 松散耦合系统

1.7 速度

1.8 小结

练习

第2章 为运营而设计

2.1 运营需求

2.2 为运营实现设计

2.3 改善模型

2.4 小结

练习

第3章 选择服务平台

3.1 服务抽象水平

3.2 机器的类型

3.3 资源共享水平

3.4 主机托管

3.5 选择策略

3.6 小结

练习

第4章 应用程序架构

4.1 单机Web服务器

4.2 三层Web服务

4.3 四层Web服务

4.4 反向代理服务

4.5 云规模服务

4.6 消息总线架构

4.7 面向服务的架构

4.8 小结

练习

第5章 伸缩性设计模式

5.1 总体战略

5.2 纵向扩展

5.3 AKF伸缩立方体

5.4 缓存

5.5 数据分片

5.6 线程处理

5.7 队列

5.8 内容分发网络

5.9 小结

练习

第6章 弹性设计模式

6.1 软件弹性胜过硬件可靠性

6.2 所有东西最终都会失灵

6.3 通过备用容量实现弹性

6.4 故障域

6.5 软件故障

6.6 物理故障

6.7 超载故障

6.8 人为错误

6.9 小结

练习

第二部分 运营:运行系统

第7章 分布式世界中的运营

7.1 分布式系统运营

7.2 服务生命周期

7.3 运营团队组织策略

7.4 虚拟办公室

7.5 小结

练习

第8章 DevOps文化

8.1 什么是DevOps

8.2 DevOps的3条道路

8.3 DevOps的历史

8.4 DevOps价值观和原则

8.5 向DevOps转化

8.6 敏捷和持续交付

8.7 小结

练习

第9章 服务交付:构建阶段

9.1 服务交付策略

9.2 高质量的良性循环

9.3 构建阶段的步骤

9.4 构建控制台

9.5 持续集成

9.6 以软件包作为移交接口

9.7 小结

练习

第10章 服务交付:部署阶段

10.1 部署阶段的步骤

10.2 测试和批准

10.3 运营控制台

10.4 基础设施自动化策略

10.5 持续交付

10.6 基础设施即代码

10.7 其他平台服务

10.8 小结

练习

第11章 升级运行中的服务

11.1 卸下服务进行升级

11.2 滚动升级

11.3 “金丝雀”

11.4 分阶段试运行

11.5 按比例分片

11.6 蓝-绿部署

11.7 功能切换

11.8 在线模式更改

11.9 在线代码更改

11.10 持续部署

11.11 处理失败的代码推送

11.12 发行原子性

11.13 小结

练习

第12章 自动化

12.1 自动化方法

12.2 工具建设与自动化的对比

12.3 自动化的目标

12.4 创建自动化系统

12.5 如何自动化

12.6 语言工具

12.7 软件工程工具和技术

12.8 多租户系统

12.9 小结

练习

第13章 设计文档

13.1 设计文档概述

13.2 设计文档剖析

13.3 模板

13.4 文档存档

13.5 审核工作流程

13.6 采用设计文档

13.7 小结

练习

第14章 随时待命

14.1 设计值班

14.2 当值

14.3 两次当值之间

14.4 警报的定期审核

14.5 收到太多传呼

14.6 小结

练习

第15章 灾难准备

15.1 心态

15.2 个人培训:灾祸之轮

15.3 团队培训:应急演练

15.4 组织培训:游戏日/DiRT

15.5 事故指挥系统

15.6 小结

练习

第16章 监控基础知识

16.1 概述

16.2 监控信息的消费者

16.3 监控的内容

16.4 留存期

16.5 元监控

16.6 日志

16.7 小结

练习

第17章 监控架构与实践

17.1 传感与计量

17.2 收集

17.3 分析和计算

17.4 警报和升级管理器

17.5 可视化

17.6 存储

17.7 配置

17.8 小结

练习

第18章 容量规划

18.1 标准容量规划

18.2 高级容量规划

18.3 资源回归

18.4 发布新服务

18.5 缩短配给时间

18.6 小结

练习

第19章 建立KPI

19.1 什么是KPI

19.2 创建KPI

19.3 KPI示例:机器分配

19.4 案例研究:错误预算

19.5 小结

练习

第20章 卓越运营

20.1 卓越运营是什么样子的

20.2 如何计量卓越的程度

20.3 评估方法论

20.4 服务评估

20.5 组织评估

20.6 提高级别

20.7 开始着手

20.8 小结

练习

第三部分 附录

附录A 评估

附录B 分布式计算和云的起源及未来

附录C 伸缩性术语和概念

附录D 模板和示例

附录E 推荐读物

后记

参考文献

云系统管理:大规模分布式系统设计与运营是2016年由机械工业出版社华章分社出版,作者[美] 托马斯·A·利蒙切利 。

得书感谢您对《云系统管理:大规模分布式系统设计与运营》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
5G大规模天线增强技术 电子书
本书以5GRel-16协议为基础,对多天线技术的发展历程进行了回顾,介绍了大规模天线增强技术在5GRel-16中的标准化方案,重点包括码本增强技术、波束管理增强技术、多TRP传输增强技术等,分析了各个方案的提出背景、设计思路、仿真结果及标准制定过程背后的技术博弃,并对多天线技术的未来发展趋势进行了预测。
5G无线系统设计与国际标准 电子书
理解5G国际标准化的一把钥匙,也是标准化领域难得的一本好书。
推荐系统技术原理与实践 电子书
本书系统介绍推荐系统的技术理论和实践。首先介绍推荐系统的基础知识;然后介绍推荐系统常用的机器学习和深度学习模型;接着重点介绍推荐系统的4层级联架构,包括召回、粗排、精排和重排,以及谷歌、阿里巴巴等大型互联网公司在4层级联架构中的模型设计和实现原理;紧接其后介绍多目标排序在推荐系统中的应用,具体介绍阿里巴巴、谷歌等大型互联网公司的实践;最后从不同角度审视推荐系统,介绍公平性问题、知识蒸馏、冷启动等各
企业级云原生架构:技术、服务与实践 电子书
基于多年的大型项目架构设计实践经验,紧贴主流技术趋势,深入浅出介绍云原生相关技术及产品。
智能推荐算法与系统构建实践 电子书
本书从系统视角出发,阐述如何利用技术手段搭建企业级推荐系统,内容包括认知篇、数据篇、召回篇、排序篇、系统篇5个部分,覆盖企业级推荐系统建设的核心要点。本书知识体系清晰,从基础知识切入,逐步深入,先后涉及推荐系统的经典技术、主流技术和前沿技术。本书通过“理论+案例+代码示例+心得体会”的方式阐述、归纳和总结推荐系统的知识,帮助读者理解推荐系统,掌握技能,建立系统思维。本书适合对推荐系统感兴趣的初学者