1Know 道歉聲明
(docs.google.com)
看起來是設計的人也許有看手冊,但操作的人沒看手冊 xd
雷設計
1Know 系統放置在 Amazon EC2 服務上,因執行效能的考量,採用 Amazon EC2 的 Instance Store 服務作為資料儲存及備份機制,此機制順暢運行了7個月。
中招的操作
2015/3/28 凌晨進行 1Know 系統更新,檢查發現 Amazon 上的資料主機磁碟空間需擴充。在加掛磁碟空間後,卻發現該主機無法啟動,並於多次重新啟動(Reboot)失敗後,決定先將該資料主機先停止(Stop)再啟動(Start)。然而當 Amazon 執行 Stop 後,就把 Instance Store 上所有資料刪除,導致主機上的資料庫與備份資料全部被清除。
IngramChen
積分 4
TL;DR:
我犯了全天下工程師都會犯的錯
就算不曉得 Instance store 的缺限,有 daily backup 的話最慘只損失一天資料而已。
唉... 就是單純的沒備份,損失才會這麼慘重,每個工程師 (operator) 都會歷經這麼一次慘痛的教訓,才會覺悟吧。這就像... 呃,初戀破滅的那一刻。
我經歷過最慘的是 drop 整個 mysql db,全資料掉入了黑洞回不來了...