目指せ!落ちない高可用性サーバ、ハードウェアの選び方 - Qiita

2017/07/19 09:34:53

shodai

Qiitaでは珍しい気がする

2017/07/19 10:01:30

kenzy_n

サーバの可用性を上げるハードウェア選定が大切

2017/07/19 11:03:58

azumi_s

下手にケチると碌な事にならんのだよなぁ、この辺は。エンクロージャ型で、エンクロージャ自体が故障して載ってるノードが全滅という恐ろしい体験をしたこともあるので高集積も色々と課題が…。

2017/07/19 12:31:05

ya--mada

検証用クローン環境を調達できるかどうかかな。

2017/07/19 12:42:35

yogasa

BMCよくバグるし、CNAのカードよく壊れる気がする。カード二枚刺しといても交換のとき調整して止めるのがそれはそれで面倒で……

2017/07/19 12:42:39

memoyashi

“私の経験では、OSが停止してしまう物理的ハードウェア故障は、500物理サーバあって、年1台あるかないかくらいです。”→重い処理を大量に行うシステム（銀行の勘定系など）だともっと多いイメージ

2017/07/19 12:43:44

snowcrush

データセンターごと落ちるケースは考慮されていないのかな

2017/07/19 13:33:45

harumaki_net

×落ちないサーバ　○落ちないサービス、止まらない業務

2017/07/19 13:56:56

jtw

一般的なパブリッククラウドは99.999が今の基本。いまどきHDDに搭載するリスクはない。FT系はコストとスケールと保守面が厳しい。/お金かけられる金融と一般的なのはやはり感覚違うのだなぁ。

2017/07/19 14:29:32

railute

昔、FTサーバーが断続的に再起動を繰り返して「おいお前！」となった。他、リストに上がっている件は全て経験しているなぁ。DCが落ちた件も含めて。

2017/07/19 14:42:07

terurou

関わってきたプロジェクトを見てても、アレイコントローラとかNICとかはまぁまぁ障害出る

2017/07/19 14:51:28

TakamoriTarou

HPのNon-Stopが出てこないのは、アレはメインフレームとかそっちの方面って感じだからかしら。止まると会社も止まる企業の生産システムなんかはこのクラスが欲しいらしいけど

2017/07/19 15:00:21

hiroomi

落ちないサービス。どれに予算を策で、伝統のハードウェア乗せ。

2017/07/19 15:18:13

agricola

なんかいろいろ変。プロセッサはきっぱりくっきり分かりやすく壊れてりゃまだ救いがあるけど、半端に動くたちの悪いのは千変万化の愉快な現象を起こすんだぞ。

2017/07/19 15:21:49

jiro68

耐障害性を考えるあまりシステムが複雑になりレアなバグを踏んで長時間停止とかよくある話。絶対に落ちないことを目指すより落ちても良いシステムを作る方が結果的にはダウンタイムやコストが少ない可能性も大

2017/07/19 15:41:35

programmablekinoko

オンプレの場合ハード障害時に現地対応しなきゃいかんので高信頼であることに越したことはない（とかいいつつDELLのPowerEdgeだけど）

2017/07/19 15:54:39

s025236

最近物理サーバ触ってないけど、メモリはオンラインで交換できるので(そして割とよく壊れるので)複数枚構成で1枚減っても足りる量に調整するのが普通だった気がする

2017/07/19 16:00:53

taruhachi

物理的故障によりサーバが落ちることは少ない。←このへんがかなり肌感覚と違うな。10年以上前の経験だけど。

2017/07/19 16:25:01

yukairioishi

awsにまかせる

2017/07/19 16:40:49

tettekete37564

メモリ故障はヤバい。あれは色んなものを壊す。ハード・ソフトに関わらず。

2017/07/19 16:45:26

moyabi

オンプレちゃんとやれるひと貴重

2017/07/19 16:46:12

fan-tail

NFV/SDNはとりあえず置いておく感じ？（金融ってもっと進んでるイメージ

2017/07/19 16:49:52

lyiase

高可用性はハードに求めるなら稼働率で求めるのは今となっては微妙な気が。こういうむちゃくちゃ金かかって独特なハードの問題が出そうなものを選ぶよりは、汎用的で死んでる時間が短くなるサーバーを選ぶべき。

2017/07/19 17:07:34

wata88

わかる〜

2017/07/19 17:12:13

ngsw

しっかり保守できる会社がしっかり保守、しっかり引継ぎしつつ使っていくべきものであって、なんか知んないけど落ちない方が良くね？レベルでテストもせずに導入されると不可侵な聖域になり大変(前職の話をしてます)

2017/07/19 17:16:32

jun_ya

ioMemoryのファームで泣かされた自分はこれにヘッドバンキングした→“何度も同じ箇所が故障するのは、ハードベンダーが出しているファームウェアの不具合”

2017/07/19 17:18:41

koyancya

RHEL じゃないんだ -> "(CentOS7.2ではなく、CentOS7.3を使う)"

2017/07/19 17:34:20

b-wind

面白い読み物だけど、まとまりが無いね。

2017/07/19 17:36:59

kurahito6

“ハードウェアの専門家ではないので、正確ではない” 10年働いてこのレベルとか、インフラエンジニアを名乗るべきではない

2017/07/19 17:46:09

nippondanji

自分もHWの保守やってたけど、このランキングはちょっと自分の経験とは違う気がする。MBは結構壊れるような。アレイコントローラはちゃんとしたヤツなら多重化されてるから壊れても"仕様上は"大丈夫。

2017/07/19 17:50:47

tzkoba

NICも冗長化するよね。ストラタス出るならNonstopも欲しいところ。

2017/07/19 18:09:54

Cald

落ちないサーバ（ファンの力で空中浮遊）

2017/07/19 18:15:52

eriotto

ローエンドの1U*3 EqualLogicのiSCSIアレイとvSphere Essentials Plusの構成で良くない？1800万くらいかな。2500万くらいあれば相当安心の構成まで持っていけるよ？それ以上なら基本大丈夫でしょ

2017/07/19 18:32:41

mikage014

クラウド全盛の今、ハードの選定、設計ができる人は減っていくだろうね

2017/07/19 19:10:43

SUZUSHIRO

目指せ！死なない業務、死なない社員の選び方

2017/07/19 19:15:22

sifue

これはわかる気がするなー。運用しはじめて更新するの怖すぎるw RT ファームウェアは構築時に最新にしておく

2017/07/19 19:44:47

noface

ベアメタル前提での可用性確保のお話のように思える。今時ならvSphere, Hyper-Vで物理サーバの単体障害対策できるんじゃないかと思います。

2017/07/19 20:05:15

hiroti3

こい！

2017/07/19 20:54:21

Nyoho

なかなか見ないタイプの記事。貴重

2017/07/19 21:21:23

hotsa104

あるあるネタでよく分かる

2017/07/19 21:39:20

ono_matope

RAIDコントローラ故障はおなじみ。

2017/07/19 23:55:53

psfactory

目指せ！落ちない高可用性サーバ、ハードウェアの選び方 - Qiita

2017/07/19 23:59:43

djwdjw

がっつり考慮して組んでおいてOSがCent考慮ありなのはオチなのか

2017/07/19 23:59:56

Mu_KuP

微妙に足りない箇所を補足したい所。／ファームはHDDなど他にも潜んでいる、アレイカードはバッテリなどの定期停止交換部の有無を事前に確認、電源周りと設置環境が寿命に一番影響、などなど。

2017/07/20 00:00:23

wushi

よいまとめ

2017/07/20 01:14:41

akira0422

IA束ねてシステム側で加用性担保したほうが圧倒的に安くなるよなあ。(´･_･`)

2017/07/20 01:53:19

kagehiens

RAIDのHDDエラー発生時、HDDを交換するもRAIDコントローラのRAID再構成処理にバグがあって交換したHDDが不良だと延々言い続ける不具合とか…。

2017/07/20 11:09:55

iwsky

IBM Zがないじゃないか！え？サーバーじゃないって？

2017/07/21 01:51:49

matsumoto_r

良いまとめ

2017/07/21 09:51:25

cl-gaku

それなりの規模の業務システムかな

2017/07/22 16:43:35

garage-kid

400