星之一角: 這次 EC2 的大災難

真的是太誇張了，到現在都還沒完全恢復正常，問題還是很多！
說真的，在這件事之前，我從來沒想過一個這種層級的服務，
居然可以死那麼久...

我記得應該是週四（04-21）下午三四點左右吧（UTC+8），
忽然有些 app 就沒辦法 push 至 heroku 了。接著就注意到
原來 heroku 還真的開始有問題了，不是我做了什麼蠢事，
例如取了太奇怪的檔名和 class 名（那時正好要 push 這個），
所以導致 heroku 跑到一種奇怪的狀況，使得後面的 push 失敗。

接著得知 heroku 確實是有一些 connectivity 的問題，
因此無法 push 應該是 heroku 確實故障了。於是我就寫了
fish shell script:

while true
  git push heroku
  sleep 5
end

希望能在第一時間 push 上去... 同時注意 heroku status,
想知道他們的修復狀況。

他們每半小時更新一次訊息，例如正在跟供應商 (i assumed this
is AWS) 協調之類的。一開始還有些什麼部份修復了，然後就開始
陷入不斷只能寫「現在沒什麼東西可以報告」的無聊訊息。

又過了幾個小時，開始聽到其實問題是來自 AWS 的 EC2.
到 AWS 的 Service Health Dashboard 看，果然 EC2 的
US-EAST-1 是有問題的，亮了黃燈。好吧，既然是 amazon 的問題，
看 heroku 也確實是沒有用，就慢慢等，然後上 twitter 看看
有沒有什麼討論...

Dan Kubb 提到

Apparently Skynet decided the first step to destroy
humanity was to shut down AWS.

還滿好笑的。
Jaime 說

LOL.
Most likely AWS IS Skynet, so maybe Humanity is winning?

我回曰
Yeah, so the cloud dispersed, we have sunlight now :p

然後因為看了 twitter, 才注意到原來有人因為 rest-graph
提到我.. 真不幸，不知道會不會是因為我沒即時回應，因此他選了
別的了 @_@ 可我沒在看 twitter 呀，不知道可不可以設 email
通知？剛剛看了一下，好像不能設有人提到時有 email 通知..

總而言之... 慢慢等慢慢等，結果 EC2 開始亮紅燈了 @_@

然後整個 heroku 就掛了。

幸好這倒是沒有持續太久。而且感覺 heroku 會讓不同 app
輪流掛掉，不會有一個是一直死的 XD 我猜他們可能焦頭爛額吧...

然後現在 EC2 和 RDS 都還是在亮紅燈...... 搞不好這次會爛超過
72 小時也說不定.. 我們來算算看，他宣稱的 availability 是 99.95%,
也就是會有 0.05% 的 down time. 通常這是一年算一次的，
因此他每年的 down time 應是 365*24*0.0005 => 4.38
老兄啊！你已經用掉超過十年的 down time 容忍度囉！

小網站死了就算了，說真的 EC2 死成這樣真的很難想像。
非常好奇到底是發生什麼恐怖的事情才能造成死亡時間如此漫長...

說不定 google 很開心吧.....

不知道這整個的原因是什麼？

另外，是說如果同時放在 us-east-1 和 us-west-1 就不會有這種
問題，但要跨區似乎很麻煩，而且考量到 database 同步問題，
我有點懷疑能做到這種程度的話，是否也不見得會考慮 ec2 了？
總之，感覺 aws 聲譽真的會大受打擊呀。

cloudfoundry?

但我申請試用他還沒寄信過來 :o

2 retries:

jinjing said...: 实时提醒可以去 google realtime 里做一个 alert; April 24, 2011 at 12:29 PM
Lin Jen-Shin (godfat) said...: 不知道可以這樣用嗎 @@"
建了一個 site:twitter.com "@godfat"
All results, As-it-happens 試試; April 24, 2011 at 7:09 PM

禁止餵食

日期分類

標籤分類

星之一角

2011-04-24

這次 EC2 的大災難

2 retries:

Post a Comment

favorite albums