重複排除技術の俗説と方法論

著者Alan Radding
Storage Magazine 2008年9月号より

データ重複排除ツールは必要容量を大きく削減する可能性があるが、ニーズにぴったり適合する製品を選ぶとなると、なかなかやっかいである。

誇大広告、急速に変化し続ける技術、それに根強い俗説が重複排除技術の展望を語るのを難しくしている。だが、うまく導入できたときの利益は疑う余地がない。

「シングルインスタンス・ストレージの二次記憶装置とアーカイブ・システムの人気が上がって来ています。」と語るのは米国マサチューセッツ州ミルピタスにあるエンタープライズ・ストラテジー・グループ(ESG)のアナリスト、ローレン・ホワイトハウス氏である。「中には、一次記憶装置で使う重複排除ツールも出てきています。」

技術は急速に成熟している。「2年前にも重複排除ツールを見ましたが、まだ現場で使えるものではありませんでした。」とジョン・ウンダー氏は語る。彼はカリフォルニア州ミルピタスに本拠を置き、メディア向けチップを製造するマグナム・セミコンダクター社のIT担当ディレクターである。最近、ウンダー氏はデリジェント・テクノロジーズ社の製品群(重複排除エンジン)と、シマンテックのVeritas NetBackupとQuatrio(サーバとストレージ)を組み合わせて重複排除のプロセスをまとめた。

正しい製品を組み合わせるには、まず様々な重複排除技術をきちんと理解し、実用前に綿密にテストし、さらにハイブリッド型重複排除(重複排除技術の選択肢を参照)やグローバル重複排除の導入などといった製品の大きな変化に付いていかなければならない。

重複排除技術の選択肢

つい最近まで、重複排除はインラインかポストプロセスで実行されていたが、メーカーの取り組みによってその境界は曖昧になってきている。

・ファルコンストア・ソフトウェア社はいわゆるハイブリッド・モデルを提供している。これは一連のテープへのバックアップジョブ( a backup job on a series of tapes ) がすべて完了するのを待たずに、そのバックアップジョブに後処理型の重複排除を適用することで、後処理の作業を迅速化している。

クアンタム社は同社がAdaptive dedupe(適応型重複排除)と呼ぶ技術を提供している。これは、最初は書込データに対してインラインの重複排除を適用し、データ入力量が処理のペースを上回るようになったら動的に増えるバッファを追加する。バッファのデータには後処理型で重複排除が適用される。

「グローバル重複排除とは、複数のデータソースを取り込んで、そのソースすべてに重複排除を適用する技術です。」とESGのホワイトハウス氏は説明する。現在のところ、重複データのインデックスは機器ごとに保持されている。グローバル重複排除はこのインデックスを機器間で共有する仕組みを必要とする。

ストレージ容量の最適化

重複排除は、データの中に現れる一意の繰り返しパターンを割り出し、それを短い記号に置き換えて保存することで、必要容量を削減する。これはCPUにかかる負荷の高い処理である。

記号に対応するキーがインデックスに保存される。重複排除エンジンがあるパターンに遭遇すると、インデックスをチェックしてそのパターンが既出であるかどうか調べる。繰り返しパターンをエンジンが見つければ見つけるほど、ストレージの必要容量を削減することができるが、インデックスはなお巨大になるかもしれない。

重複排除エンジンの処理粒度が小さくなればなるほど、繰り返しパターンが見つかる可能性が高まり、節約できる容量も増える。「本物の重複排除プロセスはサブファイルレベルまで行き、1つのファイルの色々なバージョンで共通のブロックを見つけ出します。」米国マサチューセッツ州フラミンガムにあるグラスハウス・テクノロジーズ社のデータ保護担当バイスプレジデント、カーティス・プレストン氏はこう話す。重複排除の1形式であるシングルインスタンス・ストレージはファイルレベルで動作する。

重複排除の俗説

重複排除ツールは比較的新しく、ベースとなる技術やアルゴリズムも色々あり、アップグレードも頻繁なため、技術の多様な形態についての俗説が数多くある。

インラインの重複排除は後処理型より良い。
「バックアップの速度が遅くならず、1日の時間が足りなくなることがなければ、どちらの技術を選んでも何ら問題はない。この説には同意できませんね。」とプレストン氏は断言する。

マグナム・セミコンダクターのウンダー氏はインラインの重複排除でうまく行っていると話す。「遅延はあるとしても、ごくわずかです。うちのシステムは直接ディスクがつながっているので、遅延は表に出ません。」

どちらがよいかは、保有するデータ自身と、重複排除を導入する環境、および選択する装置の処理能力による、というのが妥当な線だろう。「機器1台でのインライン方式だけでもそれくらいできるのです。」とプレストン氏は語る。グローバル重複排除がなければ、問題がある状態に機器を追加投入しても効果は薄い。現在は、プレストン氏によれば、「後処理型が先行しているが、おそらく変わっていくだろう。今年の終わりに、Diligent(現在はIBM傘下)やデータドメイン社などがグローバル重複排除ツールを出してくる。本当の勝負はここからだ。」

後処理型の重複排除はバックアップが完了した後にしか起動しない。
基本的に、後処理型のシステムは所定の仮想テープが未使用状態になるまで待ってから重複排除を行うが、バックアップ用テープすべてが未使用になるまでではない、とプレストン氏は説明する。最初のテープの重複排除はシステムで2番目のテープのバックアップが始まるとすぐに開始される。「最初のテープの重複排除が終了する頃には、2番目のテープは重複排除を適用できる状態になっている。」

メーカーの主張する重複排除比率の異常な高さ。
比率を求めるのはそう単純ではないし、メーカーが出す比率はかなりの部分細工されている。「メーカーの一部が吹聴している大げさな排除率は、400:1というのまであるが、勘弁して欲しい。」とホワイトハウス氏は言う。「最高」比率はデータの性質や、ある期間内にそれが何回変更されるか、などによって変わる。

EMCのソフトウェア・グループ担当CTOであるダン・コッド氏は次のように語る。「バックアップのために、1ギガバイトのファイル500個で構成されるデータの重複排除を行うとしましょう。翌日1つのファイルが変更されます。そこでデータセットに重複排除を適用して1つのファイルをバックアップします。バックアップ率は?この場合、500:1と言えないこともないわけです。」

ニューヨーク市に本社を置くヘルスケア関連広告代理店のグレイ・ヘルスケア・グループでは、多数のメディアファイルを使っており、ファイルには容量が2ギガバイトを越えるものもある。この会社はデータを13テラバイトのイコールロジック社(現在はデルの傘下)製iSCSI SANに保存し、ファルコンストア・ソフトウェア社のVTLと、最終的にLTO-2のテープにバックアップしている。ファルコンストアの後処理型重複排除ツールで、グレイ・ヘルスケアは4週間で175テラバイトのデータを2テラバイトの仮想ディスクにまで削減することができた。「計算ではおよそ75:1以上、ということになります。」同社のITディレクター、クリス・ワトキス氏は語る。

ワトキス氏は同じ重複排除処理の結果でも、時間の区切り方によって比率の計算が変わってくることに気付いている。「ですから、数字は40:1かもしれないし、20:1かもしれない。全体としては、175テラバイトを2テラバイトの実ディスクにまで小さくできました。」

いちばんよい結果を出すのは独自仕様のアルゴリズムである。
アルゴリズムは、独自であろうと公開であろうと、おおむね次の2つのカテゴリーに分けられる。つまり、元のデータへのポインタをインデックスに入れるハッシュベースと、最新のバックアップを確認する内容認識方式である。

「ハッシュベース、内容認識方式、どちらもアルゴリズムの技術として広く知られています。」とDiligentのCTOであるネヴィル・イェイツ氏は言う。「どちらにしても、性能は同じでしょう。」

イェイツ氏は、当然ながら、Diligentはまた違う手法を取っていると主張する。同社のアルゴリズムは、彼の説明によれば、ペタバイトのデータを処理するときでもメモリに保持できるほど小さなデータを用いているので、性能が高いという。Diligentの顧客であるマグナム・セミコンダクターのウンダー氏は、日頃処理しているファイルのサイズがおよそ22キロバイトであるため、Diligentの手法ならよい結果が出ると思った。彼はそれ以上アルゴリズムについて掘り下げる必要は感じなかった。

「私たちはデータドメイン社やイグザグリッド・システムズ社のエンジニアと話をしましたが、実際はデータの保存方法と旧データの復旧方法の方に関心がありました。」マイケル・オーブリー氏はこう話す。米国カリフォルニア州はアドベンティスト・ヘルス・ネットワークにつらなる19の病院を擁するが、彼はそのうち3つの病院の情報システム担当ディレクターを務める。各メーカーが採用しているアルゴリズムは結局分からなかった。

ファルコンストア社はSHA-1やMD5のような、公開のアルゴリズムを選択している。「これは『独自のアルゴリズムで』わずかながらよい性能を求めるか、『公開のアルゴリズムで』業務には十分すぎるほどの性能があればよいか、という問題です。」とファルコンストア社の技術バイスプレジデントであるジョン・ラリエ氏は語る。どんなに最高のアルゴリズムであっても、ビットをロスするかも知れない伝送経路の上で動いているのだ、と彼は付け加える。

環境が大きくなるにつれてハッシュ・コリジョン(Hash collisions)からデータのビットエラーレートが増大する。
統計的には正しく思える主張だが、心配には及ばない。ハッシュの不整合を心配しなければならないのは、冗長データの判別にハッシュを使う重複排除システムだけである。一致を検証するために2次チェックを使うシステムや、ハッシュをまったく使わないシステムでは、ハッシュの不整合について心配する必要はない。

グラスハウス・テクノロジーズ社のプレストン氏は自身のブログで計算を行い、95エクサバイトのデータではハッシュ不整合が原因で保持すべきブロックが破棄される確率は0.00000000000001110223024625156540423631668090820313%であることを示した。破損したブロックがリストアで実際に必要になる確率はさらに低い。

「データが95エクサバイトより少ないなら、確率は小数点50桁以下だ。」とプレストン氏は言う。「それくらいなら何の問題もないと思う。」

重複排除のヒント

重複排除をめぐる俗説を整理することはストレージ管理者にとっては手始めに過ぎない。以下に示すヒントを参考にすれば、ありがちな落とし穴を回避しつつ重複排除を導入できる

1. 自分のデータを知ること。
「人は自分のデータについて、日常の変更や保持期間について精密なデータを持っていないものです。」とウンダー氏は語る。しかしそのデータは、重複排除率がどれくらいになるかの見積もりや、ディスク容量はどれくらい必要かの判断に不可欠である。「当社はコストを抑えるために保持期間を60日間として計画しました。」

「メーカーが容量見積もりをしてくれます。それで十分です。」とESGのホワイトハウス氏は話す。一例として、アドベンティスト・ヘルスのオーブリー氏はデータドメインとイグザグリッドの担当者に重複排除ソリューションの容量見積もりを依頼した。「データについて知る限りのことを彼らに伝え、データと実績を見てほしいと頼みました。両社ともほぼ同じ見積もり結果を出してきました。」とオーブリー氏は言う。2年後、見積もりはほぼ正確だったことが証明された。

2. 自分のアプリケーションを知ること。
すべての重複排除ツールが、あらゆるアプリケーションを同じように扱うわけではない。特殊なデータ構造、変則的なデータフォーマット、同アプリケーションで行う通常とは別のデータ処理法、および可変長データなどは、重複排除ツールの誤動作を招くことがある。

フィラデルフィアのデュアン・モリス法律事務所(デュアン・モリス LLP)は、やっとのことでアバマー・テクノロジーズのAxiom(現在はEMC Avamar)という重複排除ツールを使い始めたが、非常に驚くこととなった。デュアン・モリスのCTO、ジョン・スローカ氏によれば、「いくつかのアプリケーションについては問題なく動作したが、Microsoft Exchangeは扱えなかった。」

Avamarは事務所の抱える600万のMicrosoft Word文書には問題なく重複排除を適用できたが、Exchangeのデータに差しかかると、「毎回まったく新規のデータで重複がないと解釈した」という。(Avamarの最新バージョンではExchangeのデータも重複排除できる。)だが、デュアン・モリスはAvamarをアップグレードする手間は取らない。スローカ氏は「リアルタイム・レプリケーションをやるために(ダブルテイク・ソフトウェア社の)Double-Takeに移行することにした。」という。この機能は同社が当初から求めていた機能だという。

3.圧縮されたファイルの重複排除は避ける。
上記のヒントからの当然の帰結として、「圧縮されたファイルの重複排除は時間の無駄です。」と語るのは、サンフランシスコに本社を持つ投資銀行トーマス・ワイゼル・パートナーズのCTO、ケヴィン・フィオール氏である。同社は2年以上前からデータドメインのユーザーで、非圧縮ファイルでほぼ35:1の比率を得ていた。ファイルの圧縮を行うデータベースアプリケーションなどでは、その数字は1桁に落ちた。

雑多なアプリケーションの組み合わせに重複排除をかける場合、トーマス・ワイゼル・パートナーズでは12:1から16:1という許容範囲の比率が出る。同様に、同社内で長期間保持されないデータは重複排除をかける意味はまったくない。複数回バックアップされるほど長く保持されるデータでなければ、重複排除の効果はあまりない。

4. 安易な修正を避ける。
新しいテクノロジーがユーザに使われ始める初期の過程で、企業がその場 しのぎの策、つまりアプライアンスの導入に走りがちな時があります。そして、いつの間にか機器の中に埋もれてしまい、減らさなければならなくなります。ある時点で、環境をまったく管理できなくなります。」とESGのホワイトハウス氏は語る。アプライアンスは手軽な解決策に思えるが、選択したアプライアンスがすべて、何らかのグローバル重複排除をサポートするまで、重複排除をバラバラに管理しなければならないことに気付く。いつの間にか、複数のアプライアンスで同じデータが見つかっても、その重複を削除できなくなっている。

マグナム・セミコンダクター社のウンダー氏はすぐにこの罠に気付いた。「データドメインを検討してみましたが、拡張ができませんでした。ある時点で1台80,000ドルのアプライアンスが複数必要になると予想できました。」

5. 重複排除ツールのテストには自分が保有する実データを大量に使う。
「このようなテストは時間がかかるため、企業は避けてしまいがちです。製品の試用はわずかなデータで行うのが普通ですが、結果は大量のデータを使ったときとは比較になりません。」とグラスハウス・テクノロジーズ社のプレストン氏は言う。理想では、現場で製品のデモを行い、購入を決める前に実際の業務に使ってみるべきである。ただメーカーの方は、そうしなければ案件を落とすと考えない限りなかなかやりたがらない。

アドベンティスト・ヘルスはついていた。同社はデータドメイン社とイグザグリッド社のエンジニアと現場で長々と協議してから決めた。その協議と内部での分析に基づき、同社はイグザグリッドを選んだ。その決定が下された後すぐ、アドベンティスト・ヘルス社のオーブリー氏は仁義を尽くすためにデータドメインに電話をかけた。データドメインの担当者はあきらめず、アプライアンスを出すと提案してきた。

「間違った選択をしたのではないかと、内心やや不安でした。弊社は両方の製品を競争させてみることにしました。」とオーブリー氏は言う。イグザグリッドはすでにアドベンティスト・ヘルス社のネットワークに導入されていた。データドメイン社のアプライアンスはメディアサーバーに接続するプライベートネットワークに配置した。

オーブリー氏は「データドメインの方が、プライベートネットワークなので性能がよいだろうと予想していました。」と言う。はじめから終わりまですべてのプロセスを完了するのにかかる時間を測定したところ、イグザグリッドが20%高速だった。イグザグリッドの購入を約束していたオーブリー氏はほっと胸をなで下ろした。

消費者の間で使い古された教訓が今の重複排除にもあてはまる。購買者は用心すべし、買う前に試してみる、効果は変わることがある、過去のパフォーマンスは未来のパフォーマンスの指標にはならない、フリーサイズ等というものはない、などなど。幸い、市場は競争が激しく、価格は交渉できる。技術業界のアナリスト会社である451グループは、3年前には1億ドルだった市場は2009年には10億ドルに達すると予測しており、重複排除技術は熱い。あちこちの業者の価格を見比べてみよう。ストレージ管理者として情報を集めれば、自分のニーズに合う重複排除ツールを手頃な価格で手に入れられるだろう。

(完)

[訳注]リンクはJDSF会員企業の承認を得ています。
All Rights Reserved, Copyright 2000 - 2008, TechTarget
*この翻訳記事の著作権はJDSFが所有しています。
このページに掲載されている記事・写真・図表などの無断転載を禁じます。