SkyNet
前幾天還看到很多朋友提醒, 2011-04-21就是SkyNet開始發動攻擊的日子了. 這當然是搞笑, 但是沒想到, 真的把AWS打掛了! (沒錯, AWS掛掉的時間是美國2011-04-21) 這次的災情相當慘重, 可以說是一片混亂, 哀鴻遍野. 一直到現在截稿為止, 在美東地區還有一些EBS, EC2, RDS無法連線. 很多新興網站都掛了, 所以將來AWS應該要更小心, 因為除了自己掛掉, 自己也成為更明顯的目標. 我的news feed上有一大堆AWS的訊息, 可見AWS真是有夠多人在用的. 美國鄉民也發揮了許多創意, 搞笑諷刺都很成功. 有人趕快大讚自己有過人的先見之明, 能全身而退. 有人全力嘲諷, 也有人是不滿AWS掛掉, 但是明白自己的責任也不小.
挖苦大軍
AWS Downtime counter 提醒你目前AWS的Downtime, 目前還在不斷的流逝中… AWS Downtime 好啦, awsdowntime.com被註冊了, 就改註冊 .me了! 已經掛很久啦, AWS! EC2 disabled 上面列了被AWS影響到的網站, 真的有夠多的, 你也可以回報掛掉的網站. 不知道回報不是AWS架的網站會怎麼樣? SkyNet does not responsible for AWS outage 有人在forum上面問了, AWS的人也很正經的問答了, 讓我憋著笑好難過啊! 不過這個阿宅梗好像很多人不知道, SkyNet就是魔鬼終結者, 裡面的機器人大軍. 而開始攻擊人類的日子有許多說法, 有一個就是2011-04-21啦! 還有人說, 其實SkyNet就是EC2! 但是還好, EC2掛了, 不然掛的就是我們人類了.
封面與內容不符
有幾篇文章, 講得很不錯, 主要就是一個重點, 就是AWS的地區與所在地的說法, 和這次的災情「封面與內容不符」! 原來AWS的所在地(Availability Zone)已經是獨立不受影響的資料中心了, 不應該一起掛掉. 尤其是us-east地區有4個Availability Zones, 應該要很容易可以換到別的Availability Zone繼續服務才對啊(如果你有備份好的話). 所以要嘛不是AWS沒有做好, 不然就是真的太倒霉一起掛掉. 我是看到有人說指定Availability Zone會沒有capacity, 但是不指定的話就能開EC2 instances了. 所以我猜後來大概是capacity不夠的關係.
- AWS is down: Why the sky is falling
- Amazon.com’s real problem isn’t the outage, it’s the communication
如何在AWS審判日存活
好啦, 還是來看一點有建設性的文章. 重點有以下幾點:
- EBS snapshot: EBS volumes雖然是persistent, 但是無法跨Availability Zones. 定期對EBS volumes作snapshot還是很有必要, 除了有一個明確的回復點之外, 還可以用snapshot開新的EBS volumes在不同Availability Zones. 能夠較快速回復
- 如果把靜態檔案備份到S3上, 可以提高可用性. 比較簡單的服務不容易壞, 可以用S3或再加上CloudFront提供唯讀服務, 或是sorry頁面.
- 一台EC2 instance最好不要太多角色, 避免備份, 回復, 以及scale out的困難
- 最難搬的資料庫(尤其是RDBMS的話), 還是定期備份到S3一份. 雖然不能讓你馬上回復, 但是可以讓你在別的availability zone甚至region另起爐灶, 先提供read-only的服務(當然你要有作這些開關)
參考文章:
- My Experience With the EC2 Judgment Day Outage
- Why Twilio Wasn’t Affected by Today’s AWS Issues
- Single Points of Failure
- Working around the EC2 outage
- How to work around Amazon EC2 outages
好啦, 寫太多了, 不要再寫了, 我要準備講稿了. (打哈欠)