6
January 28th Incident Report - Github (github.com)
IngramChen 積分 3

Github 內部發生了類似 不小心踢掉電源線 這種意外,然後 25% 的 server reboot,reboot 過程中 redis cluster 爛掉,造成 application server 啟動失敗。他們無奈只好先救 redis cluster,直到 redis 救好後,才重啟 application server...

看完後覺得 Github engineer 實在有點遜,這種 failure 不該是這麼強的公司該犯的… 一個子系統失效了,就造成 application server 完全不能啟動 (平常完全沒有模擬過這類型的失常)。然後子系統失效的原因是電源異常,這表示他們只用一個 Data center 囉?電源一斷就 1/4 server reboot... 有點遜。

我不是說我能做的比他們好,但 Github 已經不是 startup,也能吸收到世界最頂尖的開發者,這種等級的錯誤不是他們該犯的…