五、故障管理篇


本系列教程是学院君在极客时间学习赵成的运维体系管理课记录的学习笔记,希望对有这方面需求的同学有所启发,如果想要深入了解细节可以去极客时间订阅该专栏。作者介绍:赵成,美丽联合集团技术服务经理。

系统正常,只是该系统无数异常情况下的一种特例。

我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。

故障永远只是表面现象,其背后技术和管理上的问题才是根因。

理解一个系统应该如何工作并不能使人成为专家,明白系统为何不能正常工作才行。

出问题,管理者要先自我反省;

强调技术解决问题,而不是单纯地靠增加管理流程和检查环节来解决问题,技术手段暂时无法满足的,可以靠管理手段来辅助。

故障定级和定责

鼓励做事,而不是处罚错误

对事不对人

故障应急和故障复盘

故障应急

  • 优先恢复业务,而不是定位问题
  • 有效的组织协调

故障应急过程就是:功夫要下在平时,注意建设各种工具和平台,同时要尽可能地考虑和模拟各种故障场景。

故障复盘

复盘的目的是为了从故障中学习,找到我们技术和管理上的不足,然后不断改进。切忌将复盘过程和目的搞成追究责任或实施惩罚,这对于团队氛围和员工积极性的打击是非常大的。


本系列教程导航索引:


Vote Vote Cancel Collect Collect Cancel

<< 上一篇: 四、稳定性实践篇

>> 下一篇: 没有下一篇了