AWSはリージョンをまたいで冗長化するアーキテクチャに弱いのが問題を大きくしてると思う。
“北バージニア (US-EAST-1) リージョンにおける Amazon DynamoDB サービス障害の概要 2025 年 10 月 19 日と 20 日にバージニア北部 (us-east-1) リージョンで発生したサービス中断について”
AWSの2025/10/19,20の障害の報告書
DynamoDB エンドポイントのDNSレコード更新機構に競合状態に関して潜在的な問題が爆発して、ドミノ倒しに NLB 障害、EC2障害、他サービス障害に広がっていったと
Enactorの遅延がなんで起きたのかと、この処理遅延みたいなのがモニタリングされてなかったのか気になった。あり得なさすぎて監視してなかったのかな
普段一瞬でapplyできてたら直前の値チェックだけで、lock実装しようとは思わないよなぁ。異次元で実運用が想像できないけど、自前でIaCツール作っててそこにデフォルトでlock機構入れるぐらいしても良さそう。(TFのように)
2025/10/19に発生したAWSの障害に関するレポート
DropletWorkflow Manager?
先日のAWS障害が出ていた。オペミスとかそんなのではなく、思ったよりも深刻な内容だった。DynamoDBで管理しているエンドポイント管理のDNSの仕組みで、遅延が発生して古い情報で上書きされてレコードが空になったと。
レースコンディションとしては典型的説明。Plannerは一人だけどEnactorが3人いて、先に処理を始めた一人が大幅に遅延したことで二人目以降の人の迅速な処理と競合して、結果としてプランがクリーンアップされてしまったと
勉強
Summary of the Amazon DynamoDB Service Disruption in Northern Virginia (US-EAST-1) Region
AWSはリージョンをまたいで冗長化するアーキテクチャに弱いのが問題を大きくしてると思う。
“北バージニア (US-EAST-1) リージョンにおける Amazon DynamoDB サービス障害の概要 2025 年 10 月 19 日と 20 日にバージニア北部 (us-east-1) リージョンで発生したサービス中断について”
AWSの2025/10/19,20の障害の報告書
DynamoDB エンドポイントのDNSレコード更新機構に競合状態に関して潜在的な問題が爆発して、ドミノ倒しに NLB 障害、EC2障害、他サービス障害に広がっていったと
Enactorの遅延がなんで起きたのかと、この処理遅延みたいなのがモニタリングされてなかったのか気になった。あり得なさすぎて監視してなかったのかな
普段一瞬でapplyできてたら直前の値チェックだけで、lock実装しようとは思わないよなぁ。異次元で実運用が想像できないけど、自前でIaCツール作っててそこにデフォルトでlock機構入れるぐらいしても良さそう。(TFのように)
2025/10/19に発生したAWSの障害に関するレポート
DropletWorkflow Manager?
先日のAWS障害が出ていた。オペミスとかそんなのではなく、思ったよりも深刻な内容だった。DynamoDBで管理しているエンドポイント管理のDNSの仕組みで、遅延が発生して古い情報で上書きされてレコードが空になったと。
レースコンディションとしては典型的説明。Plannerは一人だけどEnactorが3人いて、先に処理を始めた一人が大幅に遅延したことで二人目以降の人の迅速な処理と競合して、結果としてプランがクリーンアップされてしまったと
勉強