SSDドライブが壊れた!


SSD壊れたっぽいんですけど。。。

夜中に来た連絡。。。
私も未経験のこの案件、何か解決してあげれるのだろうか。。。
PAK12_10naname

ディスクデータについて

SSDに限らずHDDは、データを保存する領域だ。
仕組みは上記の写真のような01のデータ(バイナリデータ)を保存している。
これはなぜかというと、まだまだ主流のHDDドライブは、磁気でデータを保存している。S極、N極をどう持つかというので1or0のデータとして認識する。
SSDは、磁気データではなく、電気信号データで持っていると聞いたことがある。
なににしろ、直接N/Sの書き換えを行いものより素早い。

SSDになって違うこと

今までのHDDの故障の場合、読み書きを行うヘッダの損耗で読めなくなっただけという可能性も大いにあった。
簡単に言うと、レコードの針が壊れただけで、レコード盤は壊れていないという場合だ。
そういう場合はしっかりデータを抜き出すことができた。
ディスクの故障ももちろんあったが、HDDの場合はいくつかの箇所が壊れているだけなので、データのほとんどを復旧することができたりすることも大いにあった。
しかし、SSDは、先述のような物理的な極の書き換えではなく、信号データでデータをもっているので、壊れたときはそのハードウェア全般が故障したことになるので、復旧が困難なのではないかとおもう。

調べてみた

SSDの復旧にかんして、ブログやマニュアルサイトで記事がいくつか出回っているが、そのほとんどは難しいで終わっている。
ほとんどの方がSSDのデータ復旧に関しては絶望的に考えているようにみえる。

SSDを使うべきなのか?

これは、運用ポリシーを変更することで十分使える。
パフォーマンスが数倍にも上がるSSDは、できれば使っていきたいハードウェアの一つ。
サーバー用途ではまだまだ耐久性に不安が残るが、クライアントマシンや、1日程度止まっても問題がないようなサーバーならSSDを導入すべきだろう。
シンクライアントの母艦や、クライアント用の仮想化マシンなどであればSSDにするだけで今までの何倍もパフォーマンスがよくなるだろう。

故障に対する対策は?

故障しないようにする。。。というのはできるかできないかで言うと、故障しても問題が内容に運用することは可能。
例えば例でいえばRAID構成を組むことだ。
シンプルで使い勝手の良いRAID1構成などなら、1本故障して動かなくなってももう一本で動く。
ホットスワップハードウェアRAIDであれば稼働中に故障したSSDを抜き出し新しいものに差し替えることでサイレントにRAID構成も復元してくれる。
クライアントマシンなのでRAIDがくみにくい場合などは、やはり、バックアップをしっかりとることで解決するしかない。
バックアップは、外部の別のHDDにほぞんすることで、マシンがこわれたとしても、でーただけは生き残る。
Windowsマシンなら無料でも使い勝手の良いバックアップソフトはたくさん出ている。
なかには、リカバリが可能なDVDを作ってくれるソフトなどもあり、故障したときに最悪データだけは保存しようという考えが多い。

サーバーでSSDは危険か?

これは本当に悩みどころである。
RAID構成を組めば危険度は格段に下がるとはいえ、やはり怖い。
私がサーバー屋さんをやっていたときは最後まで採用できなかった。
なぜかというと、SSD+SSDのRAID1構成はままいいとして、問題がいくつかある

  • データ容量の問題
  • 復元されるまでの時間1本で動かすことになる
  • ハードウェアの駆動時間が初期段階では同じ

という3つだ

データ容量の問題

SSDはやはり高額である。
一般的に使われるHDDが1TBで1万円も出せば性能としては1番いいものが手に入る時代。
その時代に、SSDで1万円クラスだと100GBもない。
1TBで10万円だ。RAID1構成を考えると20万、SSDの寿命を考えると月1000円や2000円の利用料ではペイできないだろう。

復元されるまでの時間を1本で動かすことになる。

HDDより復元は早いのかもしれないが。。。HDDで約1TBのデータを復元しようとすると約一晩(8~1時間)程度かかると考えている。
私はHDDでRAID6構成で運用していたがそれでも1本死んだ!HDD換装だ!という時に復元が終わるまで眠れぬ夜を過ごしたものだ。
RAID6ならよほどのことが無い限り最悪もう1本死んでも何とかなる。
それでも怖いのだ。サーバー屋さんはデータを飛ばしたら死活問題だ。F社のように親が大きいなら別だが。。。
そんな中SSDでRAID1構成だったとしたときに、怖いのが復旧中にもう一本が故障することだ。
これが怖い。本当に怖い。

ハードウェアの駆動時間が初期段階では同じ

上記の続きにもなるが、始めてドライブが故障するのは納品後1回目だ。
ディスクドライブは一番激しく駆動するパーツなので、耐久性が高くてもやはり故障しやすい。
その1本目が故障するということはハードウェア的に限界が来ていると考えられる。
と、いうことは、もう一本も故障してもおかしくない。
そんな中でRAID1構成だったら、いつ飛ぶかわからないドライブを激しく動かしてもう一本にコピーすることになるのだ。
怖くて仕方がない。HDDなら多少の個体差がありそうだしと考えるのだが、SSDはしらないこともあり一緒に飛びそうな気がして怖いのだ。

解決方法はないのか?

一つは故障した時点でハードウェアの切り替え
WEBサーバーホスティング業者の止まらないサーバーなどというサービスでよくあるのだが、運用サーバーと待機ミラーサーバーがあり、運用サーバーに故障が発生した時点で待機サーバーを運用サーバーとして、運用サーバーを退役、新しいサーバーをミラーリングサーバーとして待機させるということを行い、止まらなくする。
一度運用を止めてSSDを総入れ替えして再度ミラーリングに回せば新しいSSDに代わってミラーできる。
という考えはある。(コストは倍以上かかるが)

こういうのがあれば簡単なんですけどね。。。

当時やっぱり2本のSSDでRAID1は本当に怖いので無理だと思った。
また、故障してデータセンターへ入局して入れ替えて。。。という作業を考えてもいつ起きるかわからない故障のために常時待機が必要で酒も飲めないとスタッフが言っていたこともありこういう提案をしたことがある。
4本構成で、RAID1、3本でミラーで1台はホットスタンバイという提案だ。
最近のユニットサーバーのほとんどは全面に4台ホットスワップRAIDで抜き差し可能なように作られているということもあるのでこの構成が可能なら、SSDの故障リスクはかなり低減できるだろうと。
普通のHDDでも3TBにOSを入れるテクニックを得た私たちはぜひ普通のHDDでも採用したいと。
ただ、本当に残念なのが、3本でRAID1可能なRAIDカードというものが売られていないのです。
それで次に思いついたのは、4本で、2本ずつRAID1を組み、2本の状態にしたうえでOSでソフトウェアRAIDを組むという考え。
早い話が4本ミラーだ。
これは、実現できたのだが、パフォーマンスが以上に悪くなった。原因追及まではしなかったが、無理が発生するとわかっている構成を認めるわけにはいかなかったので不採用とした。
このような経緯から現段階でのSSDのサーバーへの導入は見送り、HDD3TB×4本のRAID6構成が今のところ最も安全だろうということでその構成で運用してきた。

まとめ

まず、SSDの復旧について、現段階で有力な情報がない以上、素人が手を出してなんとかなるとは思えない。
ダメもとでプロに相談しましょうという話かと思う。
そして、大事なのは、弱いドライブだと認識したうえで、バックアップ・復元方法をしっかり確立することで、壊れても1~2日で復旧可能なようにしておくべきなのだろう。
まさに、備えあれば憂いなしとしておくべきだということだ。


コメント

SNSでもご購読できます。

PR