“日本時間10月21日午前7時1分)に全面復旧が宣言された”
スロットリングで絞らずに解決しようとしていたらもっと被害大きかった。連鎖被害もこの時間で鎮火させていればかなり優秀な対応と言えるのでは。問題は被害額と賠償だけど、サービスクレジットで済むのかな。
マイクロサービス化しても密結合の状態なら結局モノリシックな実装と同じく単一事象を契機にまとめて死んでしまうと
サービス停止したら深刻な状況になる業種でも意外とマルチリージョンでリスク回避してるとこ少ないんだな。安心もカネで買うものなんだなあ。二重化するより保険かけた方がトータルで安かったりしそうだし。
AWSのベストプラクティスに疎結合ってのがあり、アーキテクチャ構築においては機能は密にならないように設計するがAWSの基礎サービスは裏側で密結合になってるというオチ
対応としては完璧だと思うが、us-east-1への集中をどうにかしないと根本的な対処にならない。どうにかできるのかな、これ。
絶対止まらないシステムはないから止まる前提で運用するとびっくりしない(ただし被害はちゃんと受ける)
ヘッダー?の方の眼力がすごい
分かりやすい
“障害の連鎖を食い止め、システム全体の崩壊を防ぐため、AWSは意図的に一部のオペレーションを制限する「スロットリング」という措置に踏み切った。” カッコいい
マルチリージョン、マルチAZでも今回は影響受けたからマルチクラウドまでしないと無理だよね。内側のインフラが密結合になるのは仕方ないよな。
マルチクラウドならやはり国産クラウドの価値は高いなー。AWSの障害発生時に営業かけれたら強い。
インターネットの限界を感じる。
まだpostmortemも出てないし、障害情報のメッセージを元にしたAI作文だろうからあんまり鵜呑みにしない方が良いページに思う
こないだの、Figma入れなかったのこれかー!
先日のAWS米国東部リージョン障害についての解説。分かりやすいのでブクマする
あちこちのサービスで障害出てたよね。AWS関係ないのに、自分のところで起きた障害をAWSのせいにして乗り切った人いそう。
全然全貌じゃない。求めているのはヘルスダッシュボードの内容をちょっと加筆したくらいじゃん。IAMが障害って何が起きたのか。IAM ICも対象だったが、あれは裏がインスタンスだからで、別物だろう。適当すぎる。
DNSやれらたらお手上げです。まとめてるからお安くなってるので、どうにもならん。密結合とかあんまり関係ない。自動化されてると全てが連動して破綻するのはありがち。
原因は書かれてないな。東証のサーバー故障みたいな物理的なやつがあったんだろうか?
“特に、DynamoDBやEC2のような foundational service(基礎サービス)に異常が発生すると、それに依存する無数の上位サービスが一斉に機能不全に陥るリスクをはらんでいる。”
わかりやすかった 今回の障害は学びが多そうだ
マルチリージョンにすると、データが国外に出ることを嫌がるクライアントにサービスを売るのが面倒になる。
それでも24時間以内に解決してるやん。1日止まって困るならオンプレと組み合わせるかマルチクラウドやるべき
厳密な意味での密結合ではなくてAWSの基盤を成すレイヤーが循環参照みたいな構造になっててループ状に障害が波及していくってことかな。根本原因がオペミスじゃないっぽいから再発リスクが結構あるのでは。
ヘルスダッシュボード以上の全貌はRCAを待つしかないですね / https://www.reddit.com/r/aws/comments/1oc0sd9/why_would_a_dns_issue_cause_an_outage/
マルチAZで落ちるというのは流石に酷いと思う。数年前にスタードメインが親のXserverのDC電源障害で5つあるAuthoritative DNSが全断というふざけた障害を起こして呆れて見限ったけど、それに匹敵する。
AWSがなんか情報出してたか?と思ったら、リンク先がHealth Dashboard だった。何をどう解釈したら障害情報だけでここまで詳細に書けるんだよ。
AWSから公式のレポートが出るのを待ってるよ
今日の夕方にテレビつけてたらAWSのCMやってた(あんまりテレビ見ないからかもしれんけど初めて見た、こんなタイミングで、、、と思った)
「AWSが障害で困ってんですよ」って関係ないのになんとか切り抜けた人いるん?
復旧当日に全貌なぞわかるわけもないので読む価値のない記事であることが自明なのだが、なぜわざわざ読んでまで怒っているのかね君たちは。もしかして、怒りたくて読んでるのか?止めはせんが不健全じゃあないかね
"驚くべきことに、Amazon自身のサービスも例外ではなかった" いやいや、ちゃんとドッグフーディングしてるって事だし、なんなら AWS は出自からして社内開発のサービスを外にも売ってるってものだから。
10/20障害概要 公式発表はまだ
Xでこの騒ぎに乗じたポストでは「どうせDNSだろ」「DNSでやらかしたんだ」「はいはい、DNS、DNS」みたいなのが結構目について、この手のやらかしの原因としてみんながDNSを真っ先に考えがちな気がする
AWS、長時間に及ぶ大規模障害の全貌:DNS問題が招いた混乱の連鎖 | XenoSpectrum
“日本時間10月21日午前7時1分)に全面復旧が宣言された”
スロットリングで絞らずに解決しようとしていたらもっと被害大きかった。連鎖被害もこの時間で鎮火させていればかなり優秀な対応と言えるのでは。問題は被害額と賠償だけど、サービスクレジットで済むのかな。
マイクロサービス化しても密結合の状態なら結局モノリシックな実装と同じく単一事象を契機にまとめて死んでしまうと
サービス停止したら深刻な状況になる業種でも意外とマルチリージョンでリスク回避してるとこ少ないんだな。安心もカネで買うものなんだなあ。二重化するより保険かけた方がトータルで安かったりしそうだし。
AWSのベストプラクティスに疎結合ってのがあり、アーキテクチャ構築においては機能は密にならないように設計するがAWSの基礎サービスは裏側で密結合になってるというオチ
対応としては完璧だと思うが、us-east-1への集中をどうにかしないと根本的な対処にならない。どうにかできるのかな、これ。
絶対止まらないシステムはないから止まる前提で運用するとびっくりしない(ただし被害はちゃんと受ける)
ヘッダー?の方の眼力がすごい
分かりやすい
“障害の連鎖を食い止め、システム全体の崩壊を防ぐため、AWSは意図的に一部のオペレーションを制限する「スロットリング」という措置に踏み切った。” カッコいい
マルチリージョン、マルチAZでも今回は影響受けたからマルチクラウドまでしないと無理だよね。内側のインフラが密結合になるのは仕方ないよな。
マルチクラウドならやはり国産クラウドの価値は高いなー。AWSの障害発生時に営業かけれたら強い。
インターネットの限界を感じる。
まだpostmortemも出てないし、障害情報のメッセージを元にしたAI作文だろうからあんまり鵜呑みにしない方が良いページに思う
こないだの、Figma入れなかったのこれかー!
先日のAWS米国東部リージョン障害についての解説。分かりやすいのでブクマする
あちこちのサービスで障害出てたよね。AWS関係ないのに、自分のところで起きた障害をAWSのせいにして乗り切った人いそう。
全然全貌じゃない。求めているのはヘルスダッシュボードの内容をちょっと加筆したくらいじゃん。IAMが障害って何が起きたのか。IAM ICも対象だったが、あれは裏がインスタンスだからで、別物だろう。適当すぎる。
DNSやれらたらお手上げです。まとめてるからお安くなってるので、どうにもならん。密結合とかあんまり関係ない。自動化されてると全てが連動して破綻するのはありがち。
原因は書かれてないな。東証のサーバー故障みたいな物理的なやつがあったんだろうか?
“特に、DynamoDBやEC2のような foundational service(基礎サービス)に異常が発生すると、それに依存する無数の上位サービスが一斉に機能不全に陥るリスクをはらんでいる。”
わかりやすかった 今回の障害は学びが多そうだ
マルチリージョンにすると、データが国外に出ることを嫌がるクライアントにサービスを売るのが面倒になる。
それでも24時間以内に解決してるやん。1日止まって困るならオンプレと組み合わせるかマルチクラウドやるべき
厳密な意味での密結合ではなくてAWSの基盤を成すレイヤーが循環参照みたいな構造になっててループ状に障害が波及していくってことかな。根本原因がオペミスじゃないっぽいから再発リスクが結構あるのでは。
ヘルスダッシュボード以上の全貌はRCAを待つしかないですね / https://www.reddit.com/r/aws/comments/1oc0sd9/why_would_a_dns_issue_cause_an_outage/
マルチAZで落ちるというのは流石に酷いと思う。数年前にスタードメインが親のXserverのDC電源障害で5つあるAuthoritative DNSが全断というふざけた障害を起こして呆れて見限ったけど、それに匹敵する。
AWSがなんか情報出してたか?と思ったら、リンク先がHealth Dashboard だった。何をどう解釈したら障害情報だけでここまで詳細に書けるんだよ。
AWSから公式のレポートが出るのを待ってるよ
今日の夕方にテレビつけてたらAWSのCMやってた(あんまりテレビ見ないからかもしれんけど初めて見た、こんなタイミングで、、、と思った)
「AWSが障害で困ってんですよ」って関係ないのになんとか切り抜けた人いるん?
復旧当日に全貌なぞわかるわけもないので読む価値のない記事であることが自明なのだが、なぜわざわざ読んでまで怒っているのかね君たちは。もしかして、怒りたくて読んでるのか?止めはせんが不健全じゃあないかね
"驚くべきことに、Amazon自身のサービスも例外ではなかった" いやいや、ちゃんとドッグフーディングしてるって事だし、なんなら AWS は出自からして社内開発のサービスを外にも売ってるってものだから。
10/20障害概要 公式発表はまだ
Xでこの騒ぎに乗じたポストでは「どうせDNSだろ」「DNSでやらかしたんだ」「はいはい、DNS、DNS」みたいなのが結構目について、この手のやらかしの原因としてみんながDNSを真っ先に考えがちな気がする