設計能夠渡過區域級別失敗的雲原生系統

大多數團隊會設計範例和區域故障，但將區域級別的停機視為別人的問題。區域級別的故障很少見——但它們不是理論上的。AWS us-east-1 已經經歷過多次重大事件。Azure AD 在 2023 年遭受了全球身份驗證停機。Google Cloud 的 europe-west9 因數據中心火災而離線。

當一個區域失敗時，爆炸半徑並非單一服務。它包含每一個工作負載、每一個資料庫、每一個佇列，以及每一個範圍於該區域的控制平面操作。

跨區域並不保護免受區域性失敗

跨區域保護免受資料中心失敗。它不保護免受：

區域性控制平面失敗 — 管理您資源的 API 是區域性的。如果它變得低效，您就無法擴展或部署。
區域性服務中斷 — SQS、Lambda、DynamoDB、Cosmos DB 都是區域性的。
共享命運依賴 — IAM、Secrets Manager、Key Vault 是區域性的。如果您的應用程式無法取出密鑰，那麼即使計算在三個 AZ 中都正常，也沒有關係。

2021年12月亞馬遜網絡服務公司的us-east-1事件就證明了這一點。未受影響的區域內的服務出現了降解，因為它們的依賴項不是區域獨立的。

引導燈 — 次要區域具有最小的基礎設施（數據庫副本、網絡）。計算在故障轉移時提供。恢復時間目標：15-60分鐘。成本：約為主要區域的10-15%。

熱備用 — 副本運行一個縮小但完全功能的副本。在故障轉移時，縮放並提升DB。RTO：5-15分鐘。成本：約25-40%的主副本。

主-主 — 兩個區域同時服務流量。不需要故障轉移。需要跨區域寫入（DynamoDB Global Tables, Cosmos DB）和衝突解決。RTO：接近零。成本：約80-100%+的主副本。

對於主備同步複製，您需要一個衝突解決策略。最後寫入者優先適用於配置檔案和偏好設定。它會靜默地丟棄計數器和餘額的寫入 — 在這裡使用應用層級合併或CRDTs.

實用規則：如果您無法為數據實體定義一個衝突解決策略，請將其寫入路由到單個主要區域.

手動切換並非真正切換。在區域級別的災難下，手動步驟會失敗或耗時遠超預期。

這是我對多區域韌性的深入探討總結。全文涵蓋了所有模式，包含AWS和Azure架構草圖、成本分析，以及決策框架：

完整文章包含：