Zi 字媒體

亞馬遜AWS打個噴嚏結果半個地球的網站都感冒了

2021/12/25

不管那些雲計算服務提供商怎麼宣稱自己服務的可用性，他們保證得越好，出現故障時的影響也就越顯著，尤其是像亞馬遜AWS這種元老級別的雲計算服務。大約在北京時間本周三凌晨，就當亞馬遜負責雲計算業務的副總裁在台上宣講AWS的優勢時，AWS突發故障，導致運行在其上的大量網站訪問受到影響。

出現故障的節點在AWS美東1區，共計33個服務受到影響，其中9個處於完全中斷狀態，包括上線時間最長的，亞馬遜首個雲服務產品，存儲服務S3（Simple Storage Service）。久經考驗的S3頗受業界信任，許多網站都把它當作自己的後端存儲，像github、Dropbox、Quora、Netflix、ESPN、AOL等等大型網站都在S3上儲存自己的數字資產。由於S3本身就是一個跨地域分佈存儲服務，可用性極高，十多年來也沒有出過這樣的大問題，所有人都沒有預料到它也會有故障下線的一天，結果都被打了個措手不及。

雖然亞馬遜官方口徑表示這次故障只是導致了AWS服務「報告的錯誤率上升」，拒絕承認AWS發生「服務中斷」的情況，但大家的實際體驗里是基於美東1區的那些站點下線時間長達4個多小時。百度或許應該感謝一下亞馬遜替它吸引火力，因為剛好也是在當晚，百度的移動端也出現了無法訪問的情況。

在事後調查結束之後，亞馬遜今天還原了周三事故的過程：

當晚S3服務的一部分主機響應緩慢，於是一個技術人員著手把那部分有問題的存儲主機下線，但在維護時他有一條指令打錯，結果導致一大片伺服器被突然下線。亞馬遜發現問題后馬上重啟S3服務，但S3因為太長時間沒有重啟過了，而且十多年來S3的結構也被顯著擴展過，所以它啟動的安全檢查和元數據驗證等過程花費的時間比預期要久了很多。

不論如何，雲服務商的虛擬機和存儲如何再作遷移備份和可用性保障這一問題，又一次被放到了各位IT技術的桌面上。