SRE原理与实践:构建高可靠性互联网应用

SRE原理与实践:构建高可靠性互联网应用

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

一本从架构、开发、测试、运维全流程讲解如何进行软件可靠性工程建设的著作。

内容简介

本书基于传统可靠性和软件可靠性的研究成果,借鉴和应用它们的成熟理论和工程方法,结合互联网软件的实际情况并加以融合和改进,提出了一套符合互联网时代的软件可靠性工程方法。

此外,本书还介绍了可靠性管理能力,对互联网软件开发团队、运维团队的技术领导者以及希望转型为可靠性工程师的传统运维人员、开发人员应该都有一定参考价值。

作者简介

作者张观石,资深运维专家和架构师,拥有20余年软件开发、架构、运维、SRE经验。目前就职于虎牙直播,历任项目研发负责人、SRE负责人、架构师,虎牙事故管理委员会委员、基础保障部架构师委员会委员。

章节目录

版权信息

Foreword 推荐序1

Foreword 推荐序2

Foreword 推荐序3

Foreword 推荐序4

Praise 赞誉

Preface 前言

Chapter 1 第1章 互联网软件可靠性概论

1.1 为什么要研究互联网软件可靠性工程

1.1.1 大型互联网企业的典型案例回顾

1.1.2 研究互联网服务可靠性的迫切性和重要性

1.1.3 研究软件可靠性工程是未来更复杂的软件产品发展的需要

1.2 什么是可靠性工程

1.2.1 可靠性与可靠性工程概述

1.2.2 可靠性工程发展的3个阶段

1.2.3 传统物理可靠性工程方法

1.3 软件可靠性工程

1.3.1 软件可靠性工程的概念

1.3.2 软件可靠性工程发展的两个阶段

1.4 互联网软件的可靠性

1.4.1 相关名词介绍

1.4.2 互联网软件可靠性工程现状及挑战

1.4.3 互联网软件可靠性工程方法发展的3个阶段

1.5 互联网软件可靠性工程的工作思路

1.5.1 理解软件可靠性的3个核心问题

1.5.2 建立可靠性工程体系框架的思路

1.6 本章小结

Chapter 2 第2章 互联网软件可靠性工程及可靠性度量

2.1 软件生命周期的可靠性工作

2.1.1 互联网软件生命周期的可靠性工作及原则

2.1.2 需求阶段的可靠性工作

2.1.3 设计与实现阶段的可靠性工作

2.1.4 测试与验证阶段的可靠性工作

2.1.5 部署与发布阶段的可靠性工作

2.1.6 持续运行阶段的可靠性工作

2.2 故障生命周期的可靠性工作

2.2.1 监控故障

2.2.2 故障定界定位

2.2.3 修复故障

2.3 可靠性工程6种能力综述

2.4 互联网软件可靠性度量与评价

2.4.1 可靠性度量介绍

2.4.2 可靠性度量和分析方法

2.4.3 软件可靠性度量过程

2.4.4 如何制定可靠性目标

2.5 本章小结

Chapter 3 第3章 互联网软件可靠性设计与分析

3.1 为什么要进行可靠性设计

3.1.1 什么是可靠性设计

3.1.2 可靠性是设计出来的

3.2 可靠性设计原则与通用方法

3.2.1 可靠性设计的原则

3.2.2 可靠性设计的4种方法

3.3 软件可靠性架构模型

3.4 可靠性分析与架构风险

3.5 可靠性分配

3.5.1 可靠性分配的目的

3.5.2 可靠性分配的原则

3.5.3 可靠性分配的方法

3.6 架构分层设计及其可靠性方法

3.6.1 可靠性视角的分层架构

3.6.2 业务架构的可靠性设计

3.6.3 应用架构的可靠性设计

3.6.4 系统架构的可靠性设计

3.6.5 部署架构的可靠性设计

3.6.6 基础设施架构的可靠性设计

3.6.7 可靠性相关能力的设计

3.7 架构可靠性评审

3.7.1 评审目的

3.7.2 评审过程

3.7.3 评审方法

3.8 可靠性预计

3.9 本章小结

Chapter 4 第4章 可靠性观测能力建设与实践

4.1 建设观测能力的目的

4.2 排查、监控、观测技术的发展

4.2.1 登录服务器通过系统命令排查问题

4.2.2 集中式监控系统与日志系统

4.2.3 可观测性

4.2.4 观测能力与监控

4.2.5 建立综合的观测能力

4.3 监控观测的感知场景与感知方式

4.3.1 业务可靠性感知

4.3.2 影响范围及原因定界定位

4.3.3 帮助理解复杂系统结构并自动建模

4.3.4 智能告警条件的数据感知

4.3.5 根因推荐与排查诊断、决策

4.3.6 容量感知与弹性

4.3.7 人的感知与决策能力

4.3.8 场景化的固化大盘

4.3.9 巡检与非实时分析

4.4 观测能力设计

4.4.1 设计原则

4.4.2 设计方法

4.5 观测能力要求与度量

4.5.1 定性要求与分析

4.5.2 定量要求与分析

4.6 观测能力建设实践

4.7 本章小结

Chapter 5 第5章 故障修复、综合保障能力建设与实践

5.1 软件故障修复能力概述

5.1.1 什么是软件故障修复能力

5.1.2 修复能力是现代软件系统的重要能力

5.1.3 研究故障规律是修复能力的基础

5.2 软件故障修复能力设计与建设

5.2.1 设计原则

5.2.2 预案平台的设计

5.2.3 变更型故障快速修复

5.2.4 灾难型故障快速修复

5.2.5 容量型故障快速修复

5.2.6 应急协同

5.3 运维保障能力

5.4 修复能力的度量和要求

5.4.1 定性要求

5.4.2 定量要求与评估

5.5 修复能力及保障能力建设实践

5.5.1 虎牙音视频修复能力实践

5.5.2 预案平台建设实践

5.5.3 虎牙带宽资源保障能力实践

5.6 本章小结

Chapter 6 第6章 可靠性试验与反脆弱能力建设与实践

6.1 互联网软件可靠性试验与反脆弱能力概述

6.1.1 什么是可靠性试验与反脆弱能力

6.1.2 为什么要反脆弱

6.2 软件系统的脆弱性因素分析

6.2.1 环境、产品、人的关系

6.2.2 脆弱性因素分析

6.3 反脆弱能力建设与分析

6.3.1 应对脆弱性的思路

6.3.2 反脆弱能力建设原则

6.3.3 环境脆弱性的可靠性试验:混沌工程

6.3.4 软件系统自身的可靠性试验:故障注入

6.3.5 人为因素反脆弱设计:故障演练

6.3.6 变更型故障反脆弱设计:变更管控

6.4 可靠性试验与反脆弱能力的要求

6.4.1 定性要求

6.4.2 定量要求

6.5 实践案例

6.6 本章小结

Chapter 7 第7章 可靠性管理能力

7.1 可靠性管理工作概述

7.2 软件可靠性工作规划及目标管理

7.3 故障治理

7.3.1 故障复盘

7.3.2 故障评审定级

7.3.3 定期回顾可靠性

7.4 人员与团队管理

7.4.1 可靠性工程师团队

7.4.2 团队转型

7.5 以SRE方式运维业务

7.5.1 以SRE方式接手现有业务

7.5.2 接手新业务

7.6 本章小结

SRE原理与实践:构建高可靠性互联网应用是2022年由机械工业出版社出版,作者张观石。

得书感谢您对《SRE原理与实践:构建高可靠性互联网应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
RFID原理与应用 电子书
本书讲解了射频识别(RFID)系统的概念、工作原理与应用实例。内容包括:RFID技术概述、RFID系统的构成及工作原理、RFID使用频率和电磁波的工作特性、RFID天线技术、RFID射频前端、RFID编码与调制、RFID防碰撞技术、RFID系统数据传输的安全性、RFID的标准体系、物联网的典型架构(EPC系统)、RFID的应用实例。
ERP原理与应用 电子书
本书是以易飞ERP软件为平台,以一虚拟企业的ERP项目实施与应用过程为主线,对课程内容进行整合、序化,在充分考虑ERP工程师职业能力认证考核内容的基础上,将课程内容序化为认识ERP、ERP供应链管理、ERP生产制造管理、ERP财务管理四个模块。
电机原理与应用 电子书
本书共十四章,主要内容包括变压器的工作原理和基本结构、变压器运行的基本原理、三相变压器及运行、其他变压器、电力变压器的允许运行方式和事故处理、同步发电机的工作原理和基本结构、交流电机的绕组及其电动势和磁动势、同步发电机的运行原理及特性、同步发电机的并列运行、同步发电机的突然短路及运行维护和事故处理、异步电动机的工作原理和基本结构、异步电动机的电力拖动、异步电动机的运行及故障处理、异步电动机的检修。
深度学习原理与实践 电子书
(1)大量图例,简单易懂。作者亲自绘制了大量插图,力求还原深度学习的算法思想,分解和剖析晦涩的算法,用图例来表示复杂的问题。生动的图例也能给读者带来阅读乐趣,快乐地学习算法知识,体会深度学习的算法本质。 (2)简化公式,生动比喻。深度学习和机器学习类的书中通常会有大量复杂冗长的算法公式,为了避免出现读者读不懂的情况,本书尽可能地统一了公式和符号,简化相关公式,并加以生动的比喻进行解析。在启发读者的同时,锻炼读者分析问题和解决问题的能力。 (3)算法原理,代码实现。在介绍深度学习及相关算法的原理时,不仅给出了对应的公式,还给出了实现和求解公式的代码,让读者明确该算法的作用、输入和输出。原理与代码相结合,使得读者对深度学习的算法实现更加具有亲切感。 (4)深入浅出,精心剖析。理解深度学习需要一定的机器学习知识,本书在D1章介绍了深度学习与机器学习的关系,并简要介绍了机器学习的内容。在内容安排上,每章依次介绍模型框架的应用场景、结构和使用方式,最后通过真实的案例去全面分析该模型结构。目的是让读者可以抓住深度学习的本质。 (5)入门实践,案例重现。每一章最后的真实案例不是直接堆砌代码,而是讲解使用该算法模型的原因和好处。从简单的背景知识出发,使用前文讲解过的深度学习知识实现一个实际的工程项目。实践可以用于及时检验读者对所学知识的掌握程度,为读者奠定深度学习的实践基础。 将一本技术书籍写得通俗易懂谈何容易,但《深度学习原理与实践》这本书确实做到了。书中对近年来火热的深度学习理论知识进行简单剖析,化繁为简,没有局限于坐而论道,而是将实例和数学理论相结合,让读者能够快速理解各种模型并上手实践,值得细读。 --唐春明 广州大学数学与信息学科学院副院长 本书从原理、方法、实践这 3 个维度系统地介绍了深度学习的方方面面,内容详实,解读清晰,细节与全貌兼顾,既适合初学者阅读,也可以作为深入研究的参考用书。 --杨刚 西安电子科技大学教授 近年来出版的深度学习相关图书中,本书是我见过非常有指导意义的中文书籍之一。本书对 ANN、CNN、RNN 等模型进行深入浅出的介绍,引入大量图例和简化后的公式,让算法浅显易懂。每一章的实践内容都给人惊喜,强烈推荐! --吴健之 腾讯音乐高级工程师 作为产品经理,我能看懂的深度学习书籍实在太少了。本书恰到好处,插图丰富直观,数学公式简练,很喜欢此类风格的图书,易懂好学。即使你不是程序员或算法专家,该书也值得一看! --张瑞 中软国际高级产品经理
云计算原理与实践 电子书
本书系统地讲解了云计算的知识框架,包括云计算的三大认识角度(商业模式、计算范式、实现方式)、四个关键技术(计算、存储、网络、安全)、四种开发运维维度(云原生应用、云操作系统、云端软件、云运维),以及三大应用场景(云桌面、开发云、大数据与人工智能)。本书在大部分的章中安排了一个或多个基于开源软件的实训内容,以帮助读者更有效地动手实践,包括GitHub、Hadoop、OpenStack、KVM、Doc