ITアーキテクトのひとりごと
第74回「重複排除とは何かを振り返ってみると」
わがJDSFデータ・マネジメント・ソリューション部会のホームページを久しぶりに覗いてみた。
De-dupeは重複排除というテクニカルタームとしても、ソリューションとしても完全に根付いているが、改めて「De-dupe講座」を読んでみる。
De-dupe講座が登場した当時は、De-dupeの日本語訳が乱立していたので何とかしないと誤解が生じると心配していたが、いまやすっかり安心だ。JDSFの活躍のおかげと自画自賛。
重複排除の適用領域、効果については、製品、適用されている技術ごとに「いろいろ」とあるので、若干お茶を濁しながらも、妥当な表現、説明になっているところに、このサイトを作った関係者の苦労が読み取れる。
災害対策、BCPを考えているシステムで重複排除利用の製品を使うのは、だんだんと普通のことになってきたが、効果を事前に確かめるのは難しい。実際に長年重複排除装置を使っている、あるお客様の稼働実績を見てみると驚異的な重複排除効果を発揮しているので、びっくり。改めて重複排除の威力を確認した。
De-dupe講座でも述べているが、重複排除の効果を発揮できるかどうかは、扱っているデータの特性、アプリケーションの使い方に大きく依存する。事前予測しやすいツールを提供している製品もあるが、何よりも重複排除の理屈をしっかりと理解することが大事だ。
重複排除の製品にはローカルストレージの容量を節約しようとするもの、それにプラスしてデータ複製時のネットワーク伝送量を節約しようとするものがある。
WANのようなネットワークは、価格性能比がどんどん向上しているので、BCP対策で何でも遠くに飛ばしてしまえと割り切った構成をとれるかと思いきや、日本のような狭い国土でも問題はいろいろと生じる。
お金の問題(もっぱら最大の問題)、技術の問題もさることながら、災害大国である日本には安全な場所が無いことに気づくので困ってしまうのだ。どこに居ても何か起こりそうだ。どこかで大災害が発生すると、発生場所によっては連鎖的に日本全体のシステムが崩壊するかも知れないので逃げ出したいが海で囲まれて逃げる場所に困る。
ちょっと脱線したが、ここは運命と割り切って、重複排除に話をもどそう。
自分が使っているデータの性質、アプリケーションとミドルウエアの特性を理解することはデータバックアップ&リストア、そしてリカバリの基本中の基本だが、重複排除にも全くその通りに適用される。
重複排除の技術の詳細と工夫が公開されていないところが若干玉にきずだが、効果を類推するには今わかっている技術で十分そうだ。データの性質、データの格納方法、OSの挙動、アプリの性質、こんなことをベースに推測してみる。
結構いけるじゃないか、という推測ができても、この買い物で十分です、と言えないところが苦しいが、本当に問題なのは違うところにある。費用対効果が実績で十分に説明できれば、足りなくなったら追加で買えばいいのだけれど、費用対効果を計測するメトリクスをはっきりとさせていないので説明できない。一発勝負で買い物を決めてしまうので責任をはっきりさせたがる。
重複排除製品が「難しい」製品であることの要因は、技術じゃないIT全般の問題の一端に過ぎないのかも知れない。
株式会社エクサ 恋塚 正隆