<<More Joel on Software>> 五个为什么
我们与PEER 1纽约机房的连接中断了。
为什么?----我们交换机里的网线接口好像不工作了。
为什么?----与PEER 1的网络运营中心交换意见后,我们判断这个问题很可能是由于网速/双工模式不匹配(speed/duplex mismatch)造成的。
为什么?----交换机的网速开关设在了自动调节档,而没有被手动设置在一个固定档。
为什么?----许多年前,我们就清楚地知道有可能发生此类故障。但是,我们始终没有写出一份书面的技术说明文档,用于指导和检查交换机在生产环境中的设置。
为什么?----我们总是很狭隘地看待技术说明文档,觉得只有在找不到系统管理员的情况下,才需要去看它,或者觉得只有运营团队中那些不负责系统管理的成员,才需要看它。我们没有认识到,应该把它作为技术操作的标准和确认清单。
"如果我们事先就写好一份书面的标准操作流程,安装完交换机后,再根据书面流程一一核对安装步骤,这次的服务中断事故就不会发生," Michael Gorsuch写道。"或者假定我们已经有了一份书面的操作流程,但是写得不够完整,那么等到事故发生以后,我们就需要对这份文档进行相应的补充升级,确保类似的事故以后不再发生。"
经过几次内部讨论以后,我们所有人都同意,不为服务稳定性设置一个静态值作为目标,那是毫无意义的。我们觉得,如果有人希望通过测量某些无意义的指标来改进工作,那肯定是没用的。我们真正需要的是一个能够不断改进工作质量的流程。所以,我们决定不向我们的顾客提出一个SLA条款,而是搭建一个网志。在这个网志上面,我们将实时记录每一次的服务中断,提供完整的事后分析,询问五个为什么,找到根本性的原因,告诉我们的顾客为了防止类似故障再次发生,我们所采取的举措。就拿这一次的交换机事故来说,我们采取的变化就是,在内部文档中写入详细的操作步骤和检查清单。以后再在生产环境中安装交换机的时候,所有操作步骤都必须严格按照文件中写好的步骤完成。
我们的顾客可以访问这个网志,看看故障的原因到底是什么,以及我们正在怎样改进我们的服务。我们希望,我们的顾客能够因此增强信心,相信我们的服务品质正在稳步提高。
与此同时,如果我们的顾客感到我们的故障对他造成了影响,他就可以向我们要求补偿,客服人员会给他的账户延长使用期限或者退款。我们让顾客自己决定到底该补偿多少,最多可以延长使用期限一个月,因为不是每个顾客都会注意到发生了服务中断,更不要说遭受损失了。我希望我们的这些做法,能够提高我们的服务稳定性,到达一种我们可以接受的程度,即我们的目标就是,我们遇到的所有引起服务中断的故障,都是真正由于极其罕见的、无法预料的"黑天鹅因素"而引起的。
附言。对,我们需要再招聘一名系统管理员,以免深更半夜再发生故障的时候,只有Michael Gorsuch一个人能被叫醒。
(完)