ITアーキテクトのひとりごと
第61回「3度あったことは4度目は無い?」

形あるものは壊れる。ストレージ装置も形あるものなので必ず壊れる。 可動機構のあるディスク装置やテープ装置は壊れることを前提にシステム設計することが当たり前だが、何重化しても壊れるものは壊れる。

もちろん、可動機構がなくても壊れるので、SSDディスクも信用はできない。ソフトウエアで実現した仮想XXXという製品も多いが、これも同じ程度に怪しい。結局のところ、どんなものでも壊れるのだ。

RAID5よりもRAID6。
RAID6はパリティが2個あるので同時または連続して次々と2個のディスクが壊れても大丈夫だ。
スペアディスクがあるのでもう一回壊れても大丈夫だが、スペアの代替処理が完了するまでの時間がスリリングな時間だ。故障に遭遇すればおしまいだ。

ことわざに「2度あることは3度ある」というのがあるが「3度あることは4度ある」とは言わないので、RAID6+1ではどうだろうか。RAID6+1なら最低でも5個のディスクが壊れても大丈夫なはず。

RAID6+1を作るくらいならRAID装置を2台並列運転したほうが信頼性は非常に高くなるはずだが、そうはいかないことを某システムで経験してしまった。何でも信用しすぎてはいけない。もちろん、どんなことをしても人間の確信的なミスは防げない。

つい先日、某社のRAID装置のディスクが2か月程度の間に3回故障することになった。保守契約に入っているので何台のディスクが壊れてもいいけど、データは本当に大丈夫かと心配になってくる。

RAID装置という仕組みの問題ではなく、ディスク固有の問題があるとかなりの確率でRAIDが破壊されるというリスクが高まる。いったん稼働を開始したRAID装置のディスクに問題が発覚したことがあるが、オンラインしながらディスクを全部交換するのに1か月程度を要した。PARITYの再構成のために1か月間のあいだRAID装置の耐久試験をしたような状態になるので冷や冷やものだ。

RAID装置の特性上、ディスク故障が発生するとリカバリしようとしてディスクアクセスが高まり、結果として別のディスク故障を誘発する、見つけてしまうということになるので、平常時にも微細な故障の兆候を見逃してはいけない。

微細な障害がエラーリカバリで隠ぺいされていることもある。
このあたりの繊細さがシステムの信頼性に大きく影響する。完全に壊れる前にちょっとした不具合でいつも部品交換していると、システム全体をいつもチェックしているかのような状態になるので安心だ、という考え方もあるようだ。ふむふむ、そうかもしれない。

最近は複数のディスクにディスクブロックを多重コピーするRAID1の変形版が登場している。単純に複製をばらまいておけば、ばらまかれた複製が同時に消えてしまうことはない(論理障害が発生するとダメだが)はずだという原理。ディスク故障の時もPARITYの再構成のような極端な挙動が発生しないのでずいぶんと安心できるようになった。

これは、ディスクは使いきれないほど沢山ある、という時代に合った方式だ。使いきれないほど沢山あるのはディスクだけではない。CPUもネットワーク帯域も廉価にたくさん手に入る時代になった。

基盤技術に関して、長い間、大きな変化がなかったが、こうした何でも使いきれないほど沢山あるという時代になって、別次元の新しいソフトウエアオリエンテッドなパラダイムが登場する、楽しい時代になってきた。



JDSF データ・マネジメント・ソリューション部会
株式会社エクサ 恋塚 正隆
リンクが張られていない、タイトルだけの記事は、最新号のメルマガ記事です。次回 のメルマガが配信された時点で記事にリンクが張られます。メルマガ登録すると次回 から最新記事を読むことができます。メルマガ登録は無料、非会員でも登録できます。登録はこちらから