JEITAテープストレージ専門委員会コラム
「RAIDを絶滅に追い込むイレ―ジャーコーディング
テープには15年以上前から使われていた! 」
肥大化し続けるHDD容量、その傾向は、RAIDが抱えるリビルド時間という問題点をあらわにした。HDDの容量が増えれば増えるほど、リビルド時間がかかり、場合によっては数日かかる可能性もあるためだ。最近よく耳にするイレージャーコーディング(EC)はその解決方法としても注目されている。
RAIDの限界
RAIDが登場するまで、多くのHDDベンダーはドライブ個体の信頼性を上げるのに躍起になっていた。そんな時にRAIDという概念が登場、「HDDは壊れても良いのだ!」という今までとは180度異なる考え方は、まさに当時の技術者には青天の霹靂だったかと思う。そんなRAIDが登場して20年以上たつが、信頼性の低いHDDでコスト削減ができる反面、容量の増加とともにリビルド時間が長期化するという問題が顕著になってきた。RAID5の場合、別のHDDが故障(同じRAID構成下のHDDが、同一製造ロットであることが多いため、これが意外と多かったりする)して、リビルドが終わるまでは性能が低下したり、さらに別のHDDが破損してしまうリスクも増えてくる。かといってRAID6にすれば、容量効率が下がり、コスト高になるといった悩ましい状況になってしまう。
イレージャーコーディングのメリット
そこでイレ―ジャーコーディング(Erasure Coding:EC)をデータと一緒のコンテナに載せて、ノードやラック、さらにはデータセンター越しに分散記録する方法が考えられた。筆者の記憶では、MicrosoftやFacebookが論文を出していたのが始まりだったと思う。簡単に言うとこんな感じだ。オリジナルデータと、そこから生成されるECを分割していくつかのフラグメントにする、それを単一障害の発生しないところにバラバラに記録する。読み出すときはその複数のフラグメントを読み出して、データ復元に必要なフラグメント数が集まれば読出しは完了である。たとえばフラグメントを9か所に分散記録した場合、そのうちの5個が正確(エラー訂正込み)に読み取れれば、オリジナルデータが復帰できる。もちろんECなのでビットエラーレートがそこそこ悪くても復元できるので、記録するHDDの信頼性がかなり低くても大丈夫、また、特定のネットワーク回線の障害があっても、まずオリジナルデータを復元できるのである。何とも理想的な仕組みではないか。気になるのはオーバーヘッド。いくら冗長性が高くても容量効率が悪ければ本末転倒である。ところがオーバーヘッドは40%前後というからRAID6と比較しても大きく遜色がない。それよりも多くのメリットが享受できる。また冗長度を上げるにはフラグメント数を単純に増やせばよいので、常にシンプルである。まさにクラウド時代の技術だ。
オブジェクトストレージとイレージャーコーディング
個人的にはこのようなECの利用方法は、オブジェクトストレージの普及とともに、現実味を帯びてきたのだろうと思う。オブジェクトストレージは、階層構造が複雑になる、ファイルメタデータが大きくなると性能低下が起きる等、ファイルシステムの問題点を解消するといった点で、非常に理想的ではあるが、反面データの同期には向いていないため、大容量データの非同期保存、特にアーカイブに向いたストレージ方式と考えられていた。ただし、グローバルにデータを配置、移動するクラウド時代には、まさに理想的な技術で、それもメタデータとオリジナルデータのコンテナ化、ID番号で指定するフラットなアクセスは、従来のファイルシステムの課題を解消できるものでもある。一方、通常は3つの同じコンテナのコピーを分散配置するので、容量効率は1/3とかなり悪い。Hadoopなどもデフォルトは3つだ。ECはクラウドスケールのデータの移動と、容量効率、堅牢性を兼ね備えた非常に理想的な手法であるといえるだろう。
テープには古くから使われていたEC
もちろんEC自体はかなり古い技術であるが、歴史のあるコンピュータテープ製品にも古くから使われている。最近の製品でもLTOなどは第一世代からECがフォーマットの一部として使われているのだ。LTOのECは非常に強力なエラー訂正能力があり、理論的には、書き込まれているデータの15%が正しく読み取れなくなっても、データを訂正して再生できる。 以下のようにカラムとロウそれぞれに、C1とC2という2つのECを使い、オリジナルデータに付与してサブデータセットとする。
<出典:一般社団法人 電子情報技術産業協会(JEITA) テープストレージ専門委員会
テープシステム技術資料 第5章 ライト・リードの高い信頼性を支える技術
図3 LTO の誤り訂正用 ECC>
それだけではない。これらのサブデータセットを分散記録するのである。同じサブデータセットを分割したものを3か所に記録するのだが、これを全く異なるトラックに記録するのだ。つまり1つのトラックが完全に読めない(ノード障害、ネットワーク障害)があっても、ある時間帯に大きな問題があっても、その前後にデータを分散しているので、読みだしたサブデータセットからオリジナルデータが復活できるわけだ。
<出典:一般社団法人 電子情報技術産業協会(JEITA) テープストレージ専門委員会
テープシステム技術資料 第5章 ライト・リードの高い信頼性を支える技術
図4 LTO のインターリーブの様子>
なんだかテープ上にあたかもクラウドが縮小されているような錯覚にもとらわれる。 これ以外にも、書き込んだデータを即時リードバックして確認するREAD WHILE WRITEという機能もある。このようにしてデータの冗長性を確保しているため、最近のコンピュータテープのデータ堅牢性は極めて高いといえるのである。
日本ヒューレットパッカード(株) 井上 陽治
ビッグデータは本当にビッグになるのか?人工衛星からのデータはどれくらい?
ビッグデータは本当にビッグになるのか?永遠の命でデータはどうなる?
ビッグデータは本当にビッグになるのか?2100年の予測からみてみる
RAIDを絶滅に追い込むイレ―ジャーコーディング テープには15年以上前から使われていた!
ビッグデータは本当にビッグになるのか?スマートシティとIoT
ビッグデータは本当にビッグになるのか?1秒間に1PB!? 世界の英知が選んだストレージとは?
ビッグデータは本当にビッグになるのか?2015年のトレンドを大手アナリストたちの予測から読み解く(2)
ビッグデータは本当にビッグになるのか?2015年のトレンドを大手アナリストたちの予測から読み解く(1)
次 回のメルマガが配信された時点で記事にリンクが張られます。
メルマガ登録する と次回から最新記事を読むことができます。
メルマガ登録は無料、非会員でも登録で きます。登録はこちら