2020/10/19 18:46
Bel
arrowhead10/1障害のポストモーテム資料
2020/10/19 20:54
kuenishi
読んでて胃が痛くなるような内容
2020/10/19 21:07
honehoney
公開してえらい。富士通:①設定値不整合 ②テスト不備 ③マニュアル不備、東証:④(富士通を信じて)テスト不備 ⑤NAS依存しないプロセス不備 ⑥障害時の手動切替手順不備 ⑦障害発生時ルール不備 ってとこかな。ありそう
2020/10/19 21:21
yoshis1210
俺も富士通製品のマニュアルの間違いはいくつか見つけたことがあるけど、メーカーじゃないとテスト出来ない部分で間違ってるときついな。
2020/10/19 21:55
strow0343
5年以上放置されてたものが今頃露呈したのか。動かしてみたら期待通りに動かない経験は自分もあるし、人間が作るものである以上マニュアルも100%信用出来ないので一度は動かしてみる方が無難
2020/10/19 22:22
nacamula
「今後は、迅速かつ適切な回復策を拡充すべく、「レジリ エンス(障害回復力)」も同様に重視」コレ大事。しかも、よく落ちるシステムのほうが備わっているというパラドックス。
2020/10/19 22:40
litoma
これはユーザ(東証)側で検知無理なやつ。メモリ故障テストなんて一般的にサポート対象外だろうし/どちらの立場にしても、再発防止策を考えると胃が痛くなるな…。
2020/10/19 23:00
call_me_nots
◇富士通では通常、初期設定値でマニュアルどおりに動作することをテストしてから製品として出荷するが、今回arrowhead に設定した値は初期設定値ではなかったため、出荷時、机上で仕様を確認したものの、テストは未実
2020/10/19 23:08
yutav
東証のシステム障害のリリース出てた。どの深さまでテストするかって話だよな。富士通からすると初期値を変えて運用したらどうなるか、暗黙の了解でまあ変えんやろ、みたいな意識だったのかな。
2020/10/19 23:10
W53SA
2020/10/19 23:11
oakbow
コンシューマ向け製品と違ってニッチ市場製品は、どう頑張っても試行漏れ出てくるからね…。
2020/10/19 23:35
yas-mal
「設定値に拠らず自動切替えが動作すると記載されていたことから、同設定値におけるこれまでのarrowheadの稼働実績に鑑み、富士通の設定値を当社が確認のうえ、決定しました」
2020/10/19 23:58
spark7
富士通のマニュアル書いた人大変そう「マニュアルの不備により正しい仕様が把握できませんでした」
2020/10/19 23:58
Cald
デフォルト値変わってるけどマニュアルに不備あって気付けなかったのね。そしてテストしてないのが駄目だったと。
2020/10/20 00:34
vamostokyo
あとでじっくり
2020/10/20 00:51
mmddkk
約定データの処理が中途半端(?)に仕掛かり中になったのは大きな問題だと思う。朝イチの障害だったから注文を全部ノーカンにできたけど、もし日中の障害だったらさらに面倒くさいことになったような。
2020/10/20 01:18
sekaiiti
これを見る限り、NetAppのONTAPの製品マニュアルにおいてOSverup(7-modeからcDOTかな?)での仕様変更が明記されておらず、富士通が見落としたということかな。これは少し富士通が可哀想だが、実機の設定は確認してなかったの?
2020/10/20 01:27
causeless
"@okapies この図を見て、やっと意味が分かった。怖すぎる。 t.co via twitter.com
2020/10/20 03:50
Wafer
投資家・ベンダーとの障害発生時の取り決めがなかったから再起動できなかったのは反省点やもんな。「止まらない」東証じゃなくて「壊れた時は迅速に対応する」東証にかじを切るのは正しい
2020/10/20 04:10
hatomugicha
金をかければ完成するものでもないから難しい
2020/10/20 06:11
togusa5
cf.takeover.on_panicがoff????????????????????うせやろ??????????????????????????????
2020/10/20 07:35
kz78
再発防止策で「市場停止及び再開に係るルールの整備等」も入っているのは良い。
2020/10/20 07:49
Vorspiel
cDOTから使い始めた人(俺だ)からすると「何故わざわざオフにした」ではあるが、7-modeとはオフ時の挙動もデフォルト値も違うといわれればまあ…
2020/10/20 08:05
ya--mada
こっちがJPXからのリリース
2020/10/20 08:08
iasna
トラブルの最中、分単位で状況をどこまで公表し取引停止をどこで決断するかマジぎりぎりだったことがよくわかる。一日で終わらせたのがすごい。もしも半日で稼働してたら……
2020/10/20 08:26
su_zu_ki_1010
東証側の発表内容。富士通の発表と合わせて読むと、これに関しては富士通の製品が正しく稼働する前提だったので東証は10/1の時点では仕方ない。何事も正しく稼働する前提で考えると危ないってことですなぁ。
2020/10/20 08:31
aox
株とかそういうのにはちゃんとするんですね
2020/10/20 08:35
kitano__ow
"arrowhead に設定した値ではメモリ障害時には自動的に切り替 わらない製品仕様であることが、本障害後の調査で判明しました。"
2020/10/20 09:01
tastelessandodorless
1日に事案が起きて2週間ちょっとで報告と対策をまとめるスピードと信頼感を上場銘柄の監視にも適用してほしい
2020/10/20 09:23
napsucks
富士通サイトでは「わざわざ自動切替をoffにしたので切替わらなかった」という説明で意味不明だったが、ontap7ではそれで切り替わってたのね。netappもまさかTakeover on Panicをoffのまま使ってるとは思ってなかっただろうな
2020/10/20 09:33
wataken44
これは・・・
2020/10/20 09:47
bell_chime_ring238
うう…机上検証で通したところがバグを引いたってキツいな…
2020/10/20 10:08
BoiledEgg
仕様変更の記述のチェック漏れでしゃあないかなあという気持ちとcf.takeover.on_panicというあからさまなパラメータ名をまあええかで通したのかというパソコンの大先生的な気持ちが俺の中でせめぎ合っている
2020/10/20 10:49
hamaco
ちゃんと書かれててわかりやすい
2020/10/20 10:49
orangehalf
初代の設定値はONで即時、OFFで15秒後に切替だったものが2代目からOFFは切替なしに仕様変更されたがマニュアルへ反映がされず仕様変更に気づけずに初代の設定を引き継いだために発生か。よりにもよってという障害だな
2020/10/20 12:10
burnworks
マニュアル通りに設定して安心してたらそのマニュアル自体に不備があったとかつらみ
2020/10/20 12:23
yogasa
富士通のリリースより分かり易いな。パニック時に切り替わらない内容になってたのなら、全面的に富士通が悪いな。 / メーカーじゃないとテストできない内容ではないよ……
2020/10/20 12:31
noemi_itoh
そら、今動いてるパラメータが神様なのだから敢えて神を疑うなんてこと誰もしないよね。既存設定踏襲ヨシ!過去にテスト済みなので動作確認ヨシ!ご安全に!(ヨシではない)
2020/10/20 13:18
rryu
NAS設定値というのがcf.takeover.on_panicらしく15秒はcf.takeover.detection.secondsぽい。旧OSではカーネルパニック時に外から切り替えてくれたということなのだろうか。
2020/10/20 14:15
rjge
もともとはoffでも15秒後に切り替わる仕様だったのがバージョンアップでoffは切り替わらない仕様になったのか…。読んでるだけで胃が痛くなりそう。
2020/10/20 14:26
kazuhooku
性能低下時の閾値動作とか結合テストで事前検証困難だし、そこの仕様に誤記があったらどうしようもないよね感。つぶしづらい問題解決よりも、早期復帰にむけた会社間手順の調整に重きを置くのも正しいと思う
2020/10/20 15:17
n_mattun
設定が踏襲されていれば良し・・ではなく、定期メンテの際にそれでも「実際に試す」ことをしてれば防げていたトラブルの類か。でも実働メンテできる時間や予算が担保されてたかはワカラんので責められないなぁ。
2020/10/20 17:20
n593977
これ同じ製品使ってるとこあわてて点検してるんじゃねーの
2020/10/20 18:18
shikiarai
これ予定してた仕事全部すっ飛ばしてやってるんだろうな……とか考えるとまた吐きそうになる
2020/10/20 19:02
kuracom
そもそもONにしなかった理由はなんだろう。契約の都合なのかな。
2020/10/20 19:45
dogusare
・ 確実に切り替える手段の確認・整備(11 月末まで) ・ 切替えテスト・訓練(NAS については 21 年 1 月まで:その後も継続) 大変だなぁ…。
2020/10/20 22:52
imiimiimi
テスト大事、それに尽きる