1Know 道歉聲明 | 哈啦閒聊的時刻

1Know 道歉聲明 (docs.google.com)

6 則討論 qrtt1 張貼於 10 years ago

qrtt1 積分 5 編輯於 10 years ago

看起來是設計的人也許有看手冊，但操作的人沒看手冊 xd

雷設計

1Know 系統放置在 Amazon EC2 服務上，因執行效能的考量，採用 Amazon EC2 的 Instance Store 服務作為資料儲存及備份機制，此機制順暢運行了7個月。

中招的操作

2015/3/28 凌晨進行 1Know 系統更新，檢查發現 Amazon 上的資料主機磁碟空間需擴充。在加掛磁碟空間後，卻發現該主機無法啟動，並於多次重新啟動(Reboot)失敗後，決定先將該資料主機先停止(Stop)再啟動(Start)。然而當 Amazon 執行 Stop 後，就把 Instance Store 上所有資料刪除，導致主機上的資料庫與備份資料全部被清除。

回應 10 years ago

IngramChen 積分 4

TL;DR:

我犯了全天下工程師都會犯的錯

就算不曉得 Instance store 的缺限，有 daily backup 的話最慘只損失一天資料而已。

唉... 就是單純的沒備份，損失才會這麼慘重，每個工程師 (operator) 都會歷經這麼一次慘痛的教訓，才會覺悟吧。這就像... 呃，初戀破滅的那一刻。

我經歷過最慘的是 drop 整個 mysql db，全資料掉入了黑洞回不來了...

回應 10 years ago

qrtt1 積分 2 編輯於 10 years ago

覺得 instance store 應該改回舊名 ephemeral disk，比較讓人有意識到他會消失。

db 我們遇過有人把更新的 condition 寫錯，讓所有 data 的 timestamp 都更新了，這影響到其他利用 timestamp 做差異份的機制qq

回應 10 years ago

koji 積分 0

成本還是效能考量到只用 instance store ？不管怎樣有備份的話就不會這樣了 orz。

回應 10 years ago

haocheng 積分 0

我猜應該是效能考量吧？不過完全沒做備份真的太誇張了...

回應 10 years ago

qrtt1 積分 3

1know1 在 FB 上的說明。果真大家換到 Google Compute Engine 主要是為了速度 xd

https://www.facebook.com/1know.net/posts/756535151128693

回應 10 years ago

Kmark 語法說明

Kmark 是一個類似 Markdown 語法的格式，以下為提供的功能:

種類	語法	呈現
斜體	兩邊加單星	兩邊加單星
粗體	兩邊加雙星	兩邊加雙星
刪除線	~~兩邊加雙曲號~~	~~兩邊加雙曲號~~
引用	> 左邊加個大於符號	左邊加個大於符號
列表	* 可用星號 * 也可以 - 減號 * 數字加點也可以	可用星號也可以 - 減號數字加點也可以
固定寬字	`abcdefghijk` 兩邊用倒引號包住	`abcdefghijk`
編碼區塊	``` function abc() ``` 上下都用三個倒引號包住	`function abc()`
連結	[這是連結][1] [1]: http://example.com 連結第一部份是文字，先用中括號包住，後面再加上 [編號]。第二部份是連結本身，放在文末，開頭是 [編號]: http	這是連結1 1 http://example.com

Kmark 語法說明

Kmark 是一個類似 Markdown 語法的格式，以下為提供的功能:

種類	語法	呈現
斜體	兩邊加單星	兩邊加單星
粗體	兩邊加雙星	兩邊加雙星
刪除線	~~兩邊加雙曲號~~	~~兩邊加雙曲號~~
引用	> 左邊加個大於符號	左邊加個大於符號
列表	* 可用星號 * 也可以 - 減號 * 數字加點也可以	可用星號也可以 - 減號數字加點也可以
固定寬字	`abcdefghijk` 兩邊用倒引號包住	`abcdefghijk`
編碼區塊	``` function abc() ``` 上下都用三個倒引號包住	`function abc()`
連結	[這是連結][1] [1]: http://example.com 連結第一部份是文字，先用中括號包住，後面再加上 [編號]。第二部份是連結本身，放在文末，開頭是 [編號]: http	這是連結1 1 http://example.com