テクノロジー

AWS、長時間に及ぶ大規模障害の全貌:DNS問題が招いた混乱の連鎖 | XenoSpectrum

1: gogatsu26 2025/10/21 18:08

“日本時間10月21日午前7時1分)に全面復旧が宣言された”

2: rainbowviolin 2025/10/22 12:00

スロットリングで絞らずに解決しようとしていたらもっと被害大きかった。連鎖被害もこの時間で鎮火させていればかなり優秀な対応と言えるのでは。問題は被害額と賠償だけど、サービスクレジットで済むのかな。

3: six13 2025/10/22 12:11

マイクロサービス化しても密結合の状態なら結局モノリシックな実装と同じく単一事象を契機にまとめて死んでしまうと

4: dekaino 2025/10/22 12:33

サービス停止したら深刻な状況になる業種でも意外とマルチリージョンでリスク回避してるとこ少ないんだな。安心もカネで買うものなんだなあ。二重化するより保険かけた方がトータルで安かったりしそうだし。

5: barycom 2025/10/22 12:57

AWSのベストプラクティスに疎結合ってのがあり、アーキテクチャ構築においては機能は密にならないように設計するがAWSの基礎サービスは裏側で密結合になってるというオチ

6: delphinus35 2025/10/22 13:15

対応としては完璧だと思うが、us-east-1への集中をどうにかしないと根本的な対処にならない。どうにかできるのかな、これ。

7: taguch1 2025/10/22 13:54

絶対止まらないシステムはないから止まる前提で運用するとびっくりしない(ただし被害はちゃんと受ける)

8: nasunazasu 2025/10/22 13:58

ヘッダー?の方の眼力がすごい

9: Kody_Life 2025/10/22 14:04

分かりやすい

10: ST0RM 2025/10/22 14:57

“障害の連鎖を食い止め、システム全体の崩壊を防ぐため、AWSは意図的に一部のオペレーションを制限する「スロットリング」という措置に踏み切った。” カッコいい

11: emt0 2025/10/22 16:28

マルチリージョン、マルチAZでも今回は影響受けたからマルチクラウドまでしないと無理だよね。内側のインフラが密結合になるのは仕方ないよな。

12: Iridium 2025/10/22 16:36

マルチクラウドならやはり国産クラウドの価値は高いなー。AWSの障害発生時に営業かけれたら強い。

13: ibusuke 2025/10/22 16:40

インターネットの限界を感じる。

14: sora_h 2025/10/22 19:11

まだpostmortemも出てないし、障害情報のメッセージを元にしたAI作文だろうからあんまり鵜呑みにしない方が良いページに思う

15: abababababababa 2025/10/22 19:36

こないだの、Figma入れなかったのこれかー!

16: IGA-OS 2025/10/22 19:45

先日のAWS米国東部リージョン障害についての解説。分かりやすいのでブクマする

17: yoiIT 2025/10/22 20:05

あちこちのサービスで障害出てたよね。AWS関係ないのに、自分のところで起きた障害をAWSのせいにして乗り切った人いそう。

18: kzm1760 2025/10/22 20:21

全然全貌じゃない。求めているのはヘルスダッシュボードの内容をちょっと加筆したくらいじゃん。IAMが障害って何が起きたのか。IAM ICも対象だったが、あれは裏がインスタンスだからで、別物だろう。適当すぎる。

19: houyhnhm 2025/10/22 21:03

DNSやれらたらお手上げです。まとめてるからお安くなってるので、どうにもならん。密結合とかあんまり関係ない。自動化されてると全てが連動して破綻するのはありがち。

20: janhampino 2025/10/22 21:03

原因は書かれてないな。東証のサーバー故障みたいな物理的なやつがあったんだろうか?

21: s_nagano 2025/10/22 21:05

“特に、DynamoDBやEC2のような foundational service(基礎サービス)に異常が発生すると、それに依存する無数の上位サービスが一斉に機能不全に陥るリスクをはらんでいる。”

22: easy-breezy 2025/10/22 21:39

わかりやすかった 今回の障害は学びが多そうだ

23: doas1999 2025/10/22 21:42

マルチリージョンにすると、データが国外に出ることを嫌がるクライアントにサービスを売るのが面倒になる。

24: hatebu_admin 2025/10/22 21:45

それでも24時間以内に解決してるやん。1日止まって困るならオンプレと組み合わせるかマルチクラウドやるべき

25: beerbeerkun 2025/10/22 21:48

厳密な意味での密結合ではなくてAWSの基盤を成すレイヤーが循環参照みたいな構造になっててループ状に障害が波及していくってことかな。根本原因がオペミスじゃないっぽいから再発リスクが結構あるのでは。

26: estragon 2025/10/22 22:00

ヘルスダッシュボード以上の全貌はRCAを待つしかないですね / https://www.reddit.com/r/aws/comments/1oc0sd9/why_would_a_dns_issue_cause_an_outage/

27: napsucks 2025/10/22 22:51

マルチAZで落ちるというのは流石に酷いと思う。数年前にスタードメインが親のXserverのDC電源障害で5つあるAuthoritative DNSが全断というふざけた障害を起こして呆れて見限ったけど、それに匹敵する。

28: everybodyelse 2025/10/22 23:06

AWSがなんか情報出してたか?と思ったら、リンク先がHealth Dashboard だった。何をどう解釈したら障害情報だけでここまで詳細に書けるんだよ。

29: utsuidai 2025/10/22 23:18

AWSから公式のレポートが出るのを待ってるよ

30: charonbing9 2025/10/22 23:38

今日の夕方にテレビつけてたらAWSのCMやってた(あんまりテレビ見ないからかもしれんけど初めて見た、こんなタイミングで、、、と思った)

31: rosiro 2025/10/23 00:49

「AWSが障害で困ってんですよ」って関係ないのになんとか切り抜けた人いるん?

32: Falky 2025/10/23 03:44

復旧当日に全貌なぞわかるわけもないので読む価値のない記事であることが自明なのだが、なぜわざわざ読んでまで怒っているのかね君たちは。もしかして、怒りたくて読んでるのか?止めはせんが不健全じゃあないかね

33: otchy210 2025/10/23 08:29

"驚くべきことに、Amazon自身のサービスも例外ではなかった" いやいや、ちゃんとドッグフーディングしてるって事だし、なんなら AWS は出自からして社内開発のサービスを外にも売ってるってものだから。

34: ihirokyx 2025/10/23 08:30

10/20障害概要 公式発表はまだ

35: circled 2025/10/23 08:32

Xでこの騒ぎに乗じたポストでは「どうせDNSだろ」「DNSでやらかしたんだ」「はいはい、DNS、DNS」みたいなのが結構目について、この手のやらかしの原因としてみんながDNSを真っ先に考えがちな気がする