バックアップとアーカイブの目的を再定義する
Storage Magazine 2015年3月号より
バックアップおよびアーカイブのデータの中には、ビジネス分析用に利用可能な価値が隠れているかも知れない。
バックアップおよびアーカイブデータは多くの企業において、歴史的に最も包括的なデータセットの代表だった。しかし、このデータは、削除、破損、あるいは失われたプライマリデータの復旧以外に使われることは滅多にない。バックアップおよびアーカイブはその行為そのものが尊い義務なのだが、ビッグデータ分析がもたらした熱狂によってユーザーの一部には、これらの集積されたデータ群に何らかの価値があると考えるものが出てきた。このような注目には何ら根拠が無いことも多いが、バックアップのコストの一部を資源に変えるのは決して不可能ではない。だが、それを実現するためにはバックアップ処理を見直す必要がある。
この記事では、会社の既存データの潜在的価値を求めて行うマイニングについて語るときは、保存されたデータのサーチとアクセスについてのみ語ることにする。ソースデータを標準化したり別なフォーマットに変換したりする必要がある、複雑なビッグデータ比較の話はここではしない。顧客データから、購買行動や性別、年齢、住所などの人口統計的データを調べるのは、ひとつの例になるかも知れない。また、保存済みの動画や静止画像などの既存のデジタル資産のなかから、現在のプロジェクトに関係のありそうなものを探す、というのも、またひとつの例になるかも知れない。
インデックスとサーチ
保存されたバックアップデータをサーチしアクセスするためには、バックアップ・アプリケーションが、パラメータの値に合致するデータオブジェクト(ファイル)にインデックスを付けなくてはならない。これらのバックアップ・アプリケーションは一般的に、独自フォーマットでデータを保存するからだ。ほとんどのアプリケーションは、ストレージ消費量を最小限に抑えながら高速なバックアップを行えるように設計されている。しかし、CommVaultやHPなど一部のソフトウェアプロバイダーは、さらに進んだサーチとアーカイブの機能を提供している。
CommVaultはシングルパス・プロセスを使ってバックアップとアーカイブのデータを収集し、レポジトリに保存する。バックアップとアーカイブのデータは、同じひとつのインデックスに登録されるので、ユーザーは単一のスクリーンから全てのデータを横断的に検索できる。この機能はほとんどの場合、コンプライアンス対応の目的で導入されるが、ビジネス分析のためのデータアクセスもこの機能のおかげで容易になる。
スナップショットは、高速バックアップと効率性向上のために、一般的によく使われる技術だ。しかし、データの戻しはスナップショットを使っているとより複雑になる。特に数百個ものスナップショットが作られているようなケースではなおさらだ。最近になって、一部のバックアップ老舗ベンダーは、バックアップソフトウェアの基本機能のなかに、スナップショット用インデックスとサーチ機能を追加した。データ保護戦略においてスナップショットへの依存度が高いユーザーによる、データへのアクセスを改善するためだ。
独自フォーマットのデータセットをサーチするもうひとつの方法は、外部インデックスを作ることだ。Index Enginesなど数社は、ネットワークをくまなく検索し、バックアップシステムに保存されたデータを含む、非構造型データをインデックスに登録する製品によって、司法業界を支援するビジネスを立ち上げた。これらの製品の最も多い使用事例は、eディスカバリー(電子情報の開示)要求への対応である。この場合、所与の法律案件に関わるデータオブジェクトは全て取り出され、裁判所が利用できるようにしなければならない。これらのインデックスは、ビジネス分析を行う際に必要なサーチやアクセスにも使える。
非構造型データをアーカイブする
近年のデータ増加の理由の大半は、非構造化データによるものだ。その中でも主流を占めるのは、相対的に大きなファイルで変更されることがほとんど無い、画像、動画、音声などのデジタルコンテンツである。これらのデータオブジェクトには、相当お金がかかっていることが多く、長期間、多くの場合、無制限に保存される。とはいえ、これらのデータは、現在起こっている出来事や市場の状況など、緊急の要件に対応するアプリケーションのために、ファイルレベルでアクセスできるようになっている必要がある。これらのオブジェクトの持つ特徴である大きなサイズ、長い保管期間、静的(修理や更新がかからない)性質は、従来のバックアップから取り出して、アーカイブとして保存するのに向いている。バックアップからアーカイブにデータを移行することで、サーチ機能は改善され、保存データから付加価値を抽き出すのに役立つようになる。
大容量ディスク(ニアラインSAS)やテープを利用するスケールアウトNASシステムは、デジタルコンテンツを保存しつつ、そのデータへのアクセス性を維持する効率的な方法である。Crossroads Systems Inc.のStrongBoxのようなソリューションは、NASアーキテクチャーの中にアーカイブ機能を組み込む事ができ、従来のディスクアレイに比べてギガバイトあたりのコストを大幅に低減している。これらのストレージ製品は、それ自体にはサーチ機能がついていないが、標準のファイルフォーマット経由でアプリケーションからアクセスすることは可能だ。
とてつもなく巨大化する可能性があっても、ディスク上に残しておかなければならないデータセットに対しては、統合されたファイルシステムやNASゲートウェイのついたオブジェクトストレージ・プラットフォームが、既存ファイルストレージに対する現実的な代替案となる。これらはほとんどのパブリック・クラウドストレージ・プロバイダーや多くのエンタープライズプライベートクラウドで導入されているアーキテクチャーである。オブジェクト・ストレージシステムが非構造型データレポジトリとして使われている一方で、オブジェクトベースのアーキテクチャーもまた、本記事が取り上げている付加価値処理を強化する技術だ。
使って(浸かって)みようデータレイク(データの湖)
データレイクは「本当に」大きなデータの分析を対象として考えられたシングル・インスタンスの概念である。本記事で取り上げたような、単純なサーチやアクセス処理とは別次元のものだ。データレイクには多くの定義が存在するが、大方は以下の見方で一致している。即ち、データレイクとは、データオブジェクトを(オブジェクトベースのアーキテクチャーを用い)アプリケーション個々で使用される独自フォーマットとは対照的に、ネイティブなフォーマットで保存するために設計された、エンタープライズ規模のデータレポジトリである。
データレイクの目的は、フォーマット変換や標準化を使わずに、企業のデータを分析用にさらに役立てることだ。
データレイクに関する議論において、Hadoopベースのアプリケーションがデータレイクの分析および管理エンジンとして、よく取り上げられる
コピーデータの管理
企業が個別のアプリケーションを使っていくとやがて直面するのが、データコピーの蓄積という問題だ。アプリケーションとは、データ保護、災害復旧、試験・開発、ビジネス分析等々である。コピーデータのシステムは、これらの重複したデータをひとつの共有ストレージ領域と置き換えることによって、実際には単一のデータインスタンス・レポジトリを提供する。これらの製品が使っている方法にはいくつか種類があるが、ある方法では、アプリケーションの管理下で全ファイルのゴールデンコピーをとり、インクリメンタルチェンジ・トラッキング(増分変更追跡)によって変更をかけていく。そしてこのコピーを使って、データ保護やビジネス分析などのアプリケーション用に、仮想コピーを必要な分だけ作ることができる。
コピーデータシステムは非構造型データやデータベースの保存にも使うことができ、これらが保存しているデータオブジェクトごと入れ替えできる。コピーデータ管理システムではファイルをネイティブフォーマットで保存するため、データマイニングやビジネス分析での使用にはもってこいだ。
バックアップとアーカイブの将来
近い将来、現在はまだ利用できない機能を現実のものにする技術が登場してくるだろう。例えば、オブジェクトベースのストレージアーキテクチャーは、既存のファイルシステムよりもはるかに大容量で洗練されたメタデータ保存を実現する柔軟性を持っている。これにより、各オブジェクトに関連するより多くのデータを、そのオブジェクト内に保持することができ、その結果、より細かいコンテンツ検索やより詳細な分析が可能になる。
オブジェクトストレージ・ベンダーは、拡張メタデータの潜在力に気づいており、製品の機能に加えることもできるのだが、大半のベンダーはまだそれを行っていない。
オブジェクト・ストレージシステムは、この拡張メタデータ処理のパフォーマンスを維持しながら、規模に応じて提供することができる。オブジェクトベースのアーキテクチャーが、今日クラウドのストレージ環境で成功を収める土台となったのがこの機能である。
結論
データマイニングは、いまや業種の違いを超えてあらゆる会社が関心を持っているコンセプトのように見える。(バックアップのような)他の目的のために保存されているデータを再利用するという考え方は、実際に人気が高い。アプリケーションとしてのバックアップは、ひとつの企業が作成し使用するデータのほとんどに関わるため、ビジネス解析を行う上で理想的なデータセットを提供する。今使っているバックアップ・アプリケーションが十分なサーチ能力を備えれば、企業は自社の保存バックアップデータから多大な価値を抽き出せるかも知れない。
しかし、大多数の企業は、巨大なデータセットをバックアップシステム以外のもので保存している。サーチ能力を強化するためと、費用を節約するためである。データオブジェクトが巨大または長期保存の場合、この傾向は顕著だ。これらのデータセットは、ネイティブのファイルフォーマットでも保存され、この目的専用に設計されたツールやアプリケーションによってサーチや分析が可能になっている。
著者略歴:Eric Slack はStorage Switzerlandのシニア・アナリスト。
Copyright 2000 - 2015, TechTarget. All Rights Reserved,
*この翻訳記事の翻訳著作権はJDSFが所有しています。
このページに掲載されている記事・写真・図表などの無断転載を禁じます。