Cloudflare 从长达两天的故障中恢复过来,官方公布原因和细节

  • A+
所属分类:业界关注

大致上,此次故障是由于数据中心停电和CF自身未能预计到的技术问题造成的。数据中心不专业的供电方式、缺少有经验的值班工程师以及缺少零部件加深了故障。

2号上午11:40 ,CF内部称为“PDX-04”的数据中心发生了变压器接地故障导致机房断电,该设施由 Flexential 运营。停电导致CF托管在该数据中心的服务器全部离线,其中包括CF最大的分析集群以及超过三分之一的高可用性集群机器。然而,CF的某些服务,尤其是一些较新的产品,并未添加到高可用性集群中,更糟糕的是,本应位于高可用性集群上的服务子集依赖于专门在 PDX-04 中运行的服务。这导致其它设施不能在服务离线后继续运行它们。

Cloudflare在博客中指出Flexential种种不专业的问题,比如该公司在PDX-04一个独立电源故障后没有通知CF,使后者没有预备专门团队密切监视该机房的服务。在停电后,发电机没能立即启动,数据中心工程师无法排除发电机的故障,导致UPS电源耗尽后最终断电。有三件事阻碍了发电机启动。首先,由于接地故障导致电路跳闸,因此需要对它们进行物理访问并手动重新启动。其次,Flexential 的门禁系统没有备用电池供电,因此处于离线状态。第三,现场的夜班人员不包括经验丰富的操作或电气专家——夜班人员包括保安和一名只上岗一周的无人陪伴的技术人员。

当天中午发电机重新供电后, Flexential 尝试为 Cloudflare 的电路提供备用电源时,发现断路器坏了,Flexential没有库存足够的断路器来维修,需要采购,一直到22:48更换了零件并确认稳定供电。由于CF的工程师已经长时间高强度工作,CF管理层决定推迟了恢复计划,决定先行休息,等第二天(即3号早上)继续工作。由于故障涉及的服务器多达数千台,这一工作持续到了4号04:25(UTC)。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: