一個錯誤導致 AWS 大規模中斷,導致《堡壘之夜》等遊戲癱瘓

上週,一個 AWS 嚴重中斷 摧毀了《堡壘之夜》和《Roblox》等遊戲巨頭,並通過影響遊戲世界之外的重要服務和程序而造成了廣泛的混亂。中斷的原因現已確定,表明大規模中斷是由單個軟件錯誤造成的。

正如最初報導的那樣,當亞馬遜試圖找出 15 小時中斷的原因時,問題源於 AWS 的 DNS 管理系統 DynamoDB。據報導 電腦遊戲玩家,該問題源於 DNS Enactor,它是 DynamoDB 的一個組件,它不斷更新域查找表,以便在條件變化時保持負載平衡。

當 DNS Enactor 開始滯後時,該錯誤就開始出現,並且“經歷了異常高的延遲,需要在多個 DNS 端點上重試更新”。 DNS Planner 繼續生成新計劃,雖然第一個 Enactor 被推遲,但第二個 DNS Enactor 開始實施這些計劃。

一旦第二個 Enactor 實施了新計劃,它就開始清理過程,刪除所有早於剛剛實施的計劃。與此同時,第一個 Enactor 最終趕上了並覆蓋了新的計劃,本應防止這種情況發生的檢查也由於高延遲而失敗。然後,第二個 Enactor 的清理操作刪除了舊計劃,該計劃已成為活動計劃。亞馬遜工程師解釋說:“隨著該計劃被刪除,區域端點的所有 IP 地址都被立即刪除。”刪除活動計劃會導致“不一致狀態”,​​需要操作員手動干預才能最終糾正。

一連串的錯誤最終導致了 15 小時的停電, 亞馬遜報導以及運營 DownDetector 的網絡情報公司 Ookla, 估計的 這是有記錄以來最大的停電之一。此次故障導致 Roblox、Fortnite、Pokemon Go、PlayStation Network、Rocket League 和 Wordle 等遊戲服務以及大量非遊戲服務和平台癱瘓。

Login
Loading...
Sign Up
Loading...