类似推荐
编辑推荐
阿里巴巴集团荣耀背后的技术血泪史。
内容简介
全书通过分享业务运行过程中各个领域发生的典型“踩坑”案例,帮助大家快速提升自我及团队协作,学习到宝贵的处理经验及实践方案,为互联网生产系统的稳定共同努力。从基础架构、中间件、数据库、云计算、大数据等技术领域中不断积累经验,颠覆技术瓶颈,不断创新以适应不断增长的需求。 本书主要面向互联网技术从业人员和在校师生,使读者能够通过此书基本了解阿里在各技术领域的能力,学习在如此规模下可能出现的问题以及解决方案的探讨和沉淀分享。
作者简介
作者阿里巴巴集团成长集编委会,由阿里巴巴集团不同业务线及不同技术领域内的人员组成的虚拟组织。技术人员都知道软件开发过程中的八二原则,理解大多数问题发生在何处,发生的原因,如何解决,变得尤为重要。阿里巴巴集团业务飞速发展,技术人员积累了大量丰富的线上问题排查及解决的案例和经验。成长集编委会从中挑选了一些优秀的技术案例,侧重于对问题的还原和分析。我们希望曾经踩过的坑都能具有其意义和使命,而后来者通过学习前人的经验,防微杜渐,快速成长。
章节目录
版权信息
内容简介
本书编委会
自序
推荐序1
一、做好顶层设计
二、坚持技术创新
三、组织管理创新
推荐序2
第1章 基础架构高可用
1.1 明察秋毫,域名解析排查技巧
背景
域名解析的过程
如何判断是否是解析异常
解析异常的排查分析
正常的迭代查询结果
域名不存在或域名被Hold
被阻断
缓存DNS劫持
CNAME值无法解析
部分解析异常
更换DNS但尚未完全生效
resolv.conf配置不当
小结
1.2 智能定位,网络端到端静默丢包点迅速锁定
背景
异常表现
原因分析
故障发现
故障定位和处理
小结
1.3 灵活调度,对接运营商网络流量的容灾策略
引子
背景
原因分析
业务自身调度
阿里巴巴网络的区域出口容灾调度
阿里巴巴网络的精细化容灾调度
小结
1.4 抽丝剥茧,深挖云盘挂起背后的真相
引子
背景
原因定位
细节分析
解决方案
短期方案
长期方案
小结
1.5 存储的底线,SSD数据不一致
背景
问题排查
深入分析
相关知识点
小结
第2章 中间件使用常见隐患与预防
2.1 高并发“热点”缓存数据快速“退火”
背景
缓存问题分析与解决过程
预防“缓存被击穿”总结
更多思考
2.2 自我保护,让系统坚如磐石
背景
VIPServer容灾体系
导火索
连锁反应
细节分析
解决方案
小结
2.3 机房容灾,VIPServer软负载流量调度实例
引子
背景
硬负载与软负载
接入层与软负载
实战案例
问题现象
疑问:流量从哪里来的?
排查调用发起方app-gateway-mgt
设置机房归组
小结
2.4 山洪暴发,高流量触发Tomcat bug引起集群崩溃
背景
NIO模式背景介绍
一个典型的请求处理过程
原因定位
细节分析
解决方案
小结
第3章 数据库常见问题
3.1 性能杀手,SQL执行计划
背景
解决过程
深入分析
小结
3.2 波谲云诡,数据库延迟
背景
问题分析
日志分析
抓包分析
什么是DRC?
MySQL线程池
小结
3.3 风暴来袭,AliSQL连接池调优
原因分析
初步分析
验证推理
解决方案
小结
3.4 防患于未然,ORM规约变更案例
背景
问题排查过程
解决过程及原因
总结
3.5 云数据库,SQL优化经典案例
背景
案例扩展
索引篇
隐式转换案例一
隐式转换案例二
隐式转换案例三
两个索引的常见误区
最佳实践
SQL改写篇
参数优化篇
优化器篇
优化器参数
统计信息
小结
第4章 业务研发经典案例
4.1 幂等控制,分布式锁超时情况和业务重试的并发
背景说明
数据库记录分析
过程逆推
深入分析
思考
方案一:调整超时时间
方案二:增加幂等控制(推荐)
小结
4.2 另类解法,分布式一致性
背景
问题原因及分析
解决过程
小结
4.3 大道至简,从故障模型的边界状态切换到原始状态
背景
调查
讨论&解决
小结
4.4 疑案追踪,JSON序列化不一致
背景
原因定位
细节分析
解决方案
小结
4.5 从现象到本质,不保证顺序的Class.getMethodsJVM实现
背景
解决方案
JVM里为什么不保证顺序
JVM为什么要对方法排序
小结
4.6 破解超时迷局,浅析启动初期load飙高问题
背景
原因定位
细节分析
解决方案思考
具体实施方案
小结
4.7 洞悉千丝万缕,浅谈JIT编译优化的误区
背景
原因定位
详细分析
解决方案
小结
第5章 运行管理域稳定性建设
5.1 洞若观火,让故障无处遁形
背景
阿里应急体系
故障发现
业务监控
故障发现渠道
应急响应
响应优先级划分
CMDB建设及运营
应急响应流程线上化
快速恢复
故障复盘及改进
故障复盘
故障防范
小结
5.2 体系化思考,高效解决运营商问题
背景
问题现象
问题剖析
解决方案
小结
5.3 以战养兵,以故障演练提升系统稳定性
背景
一次生产环境故障复现的案例
故障画像分析和演练模型设计
故障演练的一些实践
小结
逆流而上:阿里巴巴技术成长之路是2018年由电子工业出版社出版,作者阿里巴巴集团成长集编委会。
得书感谢您对《逆流而上:阿里巴巴技术成长之路》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。