What have you found for these years?

2011-04-24

這次 EC2 的大災難

真的是太誇張了,到現在都還沒完全恢復正常,問題還是很多!
說真的,在這件事之前,我從來沒想過一個這種層級的服務,
居然可以死那麼久...

我記得應該是週四(04-21)下午三四點左右吧(UTC+8),
忽然有些 app 就沒辦法 push 至 heroku 了。接著就注意到
原來 heroku 還真的開始有問題了,不是我做了什麼蠢事,
例如取了太奇怪的檔名和 class 名(那時正好要 push 這個),
所以導致 heroku 跑到一種奇怪的狀況,使得後面的 push 失敗。

接著得知 heroku 確實是有一些 connectivity 的問題,
因此無法 push 應該是 heroku 確實故障了。於是我就寫了
fish shell script:

while true
  git push heroku
  sleep 5
end
希望能在第一時間 push 上去... 同時注意 heroku status,
想知道他們的修復狀況。

他們每半小時更新一次訊息,例如正在跟供應商 (i assumed this
is AWS) 協調之類的。一開始還有些什麼部份修復了,然後就開始
陷入不斷只能寫「現在沒什麼東西可以報告」的無聊訊息。

又過了幾個小時,開始聽到其實問題是來自 AWS 的 EC2.
到 AWS 的 Service Health Dashboard 看,果然 EC2 的
US-EAST-1 是有問題的,亮了黃燈。好吧,既然是 amazon 的問題,
看 heroku 也確實是沒有用,就慢慢等,然後上 twitter 看看
有沒有什麼討論...

Dan Kubb 提到
Apparently Skynet decided the first step to destroy
humanity was to shut down AWS.

還滿好笑的。
Jaime 說
LOL.
Most likely AWS IS Skynet, so maybe Humanity is winning?
我回曰
Yeah, so the cloud dispersed, we have sunlight now :p

然後因為看了 twitter, 才注意到原來有人因為 rest-graph
提到我.. 真不幸,不知道會不會是因為我沒即時回應,因此他選了
別的了 @_@ 可我沒在看 twitter 呀,不知道可不可以設 email
通知?剛剛看了一下,好像不能設有人提到時有 email 通知..

總而言之... 慢慢等慢慢等,結果 EC2 開始亮紅燈了 @_@

然後整個 heroku 就掛了。

幸好這倒是沒有持續太久。而且感覺 heroku 會讓不同 app
輪流掛掉,不會有一個是一直死的 XD 我猜他們可能焦頭爛額吧...

然後現在 EC2 和 RDS 都還是在亮紅燈...... 搞不好這次會爛超過
72 小時也說不定.. 我們來算算看,他宣稱的 availability 是 99.95%,
也就是會有 0.05% 的 down time. 通常這是一年算一次的,
因此他每年的 down time 應是 365*24*0.0005 => 4.38
老兄啊!你已經用掉超過十年的 down time 容忍度囉!

小網站死了就算了,說真的 EC2 死成這樣真的很難想像。
非常好奇到底是發生什麼恐怖的事情才能造成死亡時間如此漫長...

說不定 google 很開心吧.....

不知道這整個的原因是什麼?

另外,是說如果同時放在 us-east-1 和 us-west-1 就不會有這種
問題,但要跨區似乎很麻煩,而且考量到 database 同步問題,
我有點懷疑能做到這種程度的話,是否也不見得會考慮 ec2 了?
總之,感覺 aws 聲譽真的會大受打擊呀。

cloudfoundry?

但我申請試用他還沒寄信過來 :o

2 retries:

jinjing said...

实时提醒可以去 google realtime 里做一个 alert

Lin Jen-Shin (godfat) said...

不知道可以這樣用嗎 @@"
建了一個 site:twitter.com "@godfat"
All results, As-it-happens 試試

Post a Comment

Note: Only a member of this blog may post a comment.



All texts are licensed under CC Attribution 3.0