非構造化データをフルに活用しよう!


ストレージを再設計するときは、以下の7つのテクニックを熟読して、非構造化データを最大限に活用しよう

Storage Magazine4月号より
Mike Matchett

 

古き良き時代、我々が扱っていたストレージティアは、ほとんどが2階層だった。アプリケーションによって直接使用される、オンライン・高パフォーマンスのプライマリストレージ。プライマリストレージからはみ出た、より低価値のデータのティアに使われる、アクセス頻度が低いセカンダリストレージ。しかし、プライマリストレージ上のデータはその保持期限と同時に価値がなくなるわけではなく、その一方、プライマリストレージは非常に高価でその容量を制限せざるを得ない。しかもそこに、新しくてより即時的価値のあるデータを保存するための場所を作らなければならないのだ。

ある種の履歴情報をオンラインで保持するため、我々は過去膨大な時間を費やして、古くなったデータをインテリジェントに要約し統合することを試みた。しかし未だに、大量の詳細データは、我々から見えないところ且つ普段オフラインになっているベッドへと追いやられているのが現状だ。ただ、非構造化データの管理についての懸念が大きくなるにつれて、この状況は変わりつつある。新しいサービスは、詳細な非構造化データや機械データのビッグデータ解析にストレージを提供する。また、WebスピードのDevOpsアジリティに対応するため、ストレージの自己サービス、ITコスト管理用ストレージ提供も行う。基本的にこれらのサービスは、ストレージのプロが、絶え間なく増大するデータセットにオンラインでアクセスし、それを運用するための手段を提供している。

非構造化データ管理製品には、コピーデータ・マネジメント(CDM)、グローバル・ファイルシステム、ハイブリッド・クラウドアーキテクチャー、グローバル・データ保護、ビッグデータ解析などが含まれるだろう。これらの製品が持つ機能は、データの可用性と生産性の維持に対して、全面的にとまではいかないかも知れないが、多大な貢献をしている。

 

爆発的なデータ増大にどう立ち向かうか

今、我々の目の前にあるのは、極めて多様で大量かつ非構造化であるデータだ。つまり、構造化されたデータベース・レコード以外のほとんど全てのデータだ。新規データの爆発的増加(エクスプロージョン)を作り出しているのは、増大するファイルやファイルシステム、機械が生成するデータストリーム、Webスケールのアプリケーションから吐き出されるデータ、絶え間ないファイルのバージョニング、データ整合性とビジネス継続性に対応するトレランスを満たすための細かい粒度のバックアップとロールバック・スナップショット、膨大な画像や動画のレポジトリなどだ。

パブリッククラウドはこのデータ・エクスプロージョンに対応する方法のひとつだが、これが常に最善の答えとは限らない。伸縮自在(エラスティック)なクラウド・ストレージサービスは、大容量のストレージをデプロイする際の使い勝手は良い。しかし、絶えず増加し、それにつれて料金も跳ね上がるクラウド・データダンプを生成しないのであれば、非構造化データの管理のために先進的ストレージ管理を行う必要がある。ストレージの新製品の多くに共通しているテーマは、ハイブリッドおよびパブリッククラウドの構成を含む複数のグローバルストレージ・ティア間にエンタープライズ・クラスのIT管理とガバナンスを拡張することだ。

あなたが近々、新しい手法でストレージ、とりわけグローバル・エンタープライズ規模の非構造化データストレージを設計するのであれば、以下に挙げる7つの先進的ストレージ機能を検討してもらいたい。

 

1.自動ストレージ・ティアリング

ストレージ・ティアリングは別に新しいコンセプトではないが、現在のものは同一ベンダーの異機種アレイや異なるベンダーの製品間でも機能し、大抵は既存のストレージを真っ先に仮想化する。先進的ストレージ・ティアリング製品は、旧世代の単純なクラウドゲートウェイの機能も引き継いでいる。これらの製品は、作業ごとのパフォーマンスの必要性を学習し、主要なQoS、セキュリティ、業務コストコントロール・ポリシーを備えている。

これまで個別製品として作られていたストレージ・バーチャライザー、グローバル分散ファイルシステム、バルクデータ・レプリケーター、マイグレーター、クラウドゲートウェイは、シングルコンソールで各種ストレージサービスを統一する形態へと集約された。EnmotusとVeritasがこの簡単に使えるサービスを販売している。このタイプのストレージ・ティアリングは、ストレージ基盤の統合を可能にし、多種多様なストレージ管理製品に対して核となるサービスを提供する。

 

2.大規模メタデータ

非構造化データを管理する際、ストレージ・メタデータ(保存されているデータに関するデータ)の収集や使用についての関心が高まっている。大規模メタデータを適切に集約し利用する事で、ストレージ・ベンダーはストレージの仮想化、サービスの最適化、ガバナンス・ポリシーの施行、エンドユーザーによるデータ解析への取り組みに対し、より良い対応ができる。

メタデータは、オブジェクトストレージやファイルストレージ環境ではおなじみの概念だ。しかし、先進的なブロックストレージや仮想マシンレベルのストレージでも、ティアリングのパフォーマンスを向上させるため、メタデータの詳細情報を利用するサービスが増えている。また、データ保護機能にもメタデータを見ることができる。Reduxioの無限スナップショットと即時リカバリは、タイムスタンプが変わったブロックをベースにしているが、これらの機能にはメタデータが使われている。変更データキャプチャ技術とN-wayレプリケーションも同様である。メタデータへの依存度が高いストレージをチェックする時、メタデータ保護の仕組みと潜在的なボトルネックの可能性を調べるのは重要だ。面白いことに、メタデータを重視したアプローチは、ストレージのパフォーマンスを改善する。通常、この方法によって、メタデータパフォーマンスが向上しデータ配信以外の帯域が拡張されるからだ。*訳註1

 

3.ストレージ解析

エンタープライズストレージ全体から集めた、メタデータとストレージ使用に関する内部分析は、オフライン*訳註2でも、最近増えている動的運用でも利用できる。障害自動通報は、これらの解析をストレージ管理に活用している一例だ。Komprise他数社のベンダーは、解析を利用して高度な処理内容ごとのストレージ使用についてのレポートを提供し、さらには、ストレージホスティングの変更やストレージ仮想化を実行する前に(それを実行した場合の)シミュレーション・プランを提示してくれる。処理内容に対するデータストレージ配備を、継続的に評価し最適化するためにこの解析を利用することは、データの著しい増大に伴うストレージのコストをコントロールする際、極めて重要になる。

クラウド・ストレージサービス・プランは特に競争が激しい。IT部門がますます増大するリアルタイム・コンテクストのために、あるプロバイダーと他のプロバイダー、あるいはサービスの解析情報を提供してくれる、ストレージコスト-容量-パフォーマンスのブローカー・ビジネス(ブローカレージ)*訳註3の波が来ている。データはいまだに相当な引力(訳註:データは容量が大きいほどアプリケーションやサービス、自分より小さいデータを引き寄せる力を持つという「データ引力」説をベースにしている。)を持つため、クラウド・ブローカレージ・ビジネスは、まだ普及には至っていないが、前述した新製品の多くは、アプリケーションをリスタートせずとも、リアルタイムでデータをどこにでも出現させることができる。コストをコントロールするために、実際のデータは陰でゆっくりと移行する仕掛けだ。

 

4.容量の最適化

データの重複排除、圧縮、シン・プロビジョニングは、もちろんアレイレベルでの容量最適化に貢献している。しかし、エンタープライズで飛び交っているデータセットのコピーの数を制限することによっても、管理の悩みと膨大な非構造化データを扱うコストは削減される。

Actifio や Delphixなどの会社は、データの仮想コピーやクローンを提供しつつ、最適化された変更データを保護する機構を持つCDMで成功を収めている。例えば、一社のエンタープライズで15個の重要データのコピーが別々の場所に保存されていたとしよう。CDMは、ストレージを重複排除してひとつのマスターコピーをつくり、要求があれば仮想のコピーを作り即時アクセスを可能にする。

 

5.スマートデータ保護

Commvault、Rubrik、Strongbox Data Solutions、Veritasなどのスマートデータ保護ベンダーは、拡張可能でかつ容量が最適化されたバックアップストレージを提供している。これらのベンダーの製品は、多くの場合、高度なメタデータと賢いCDMのような技術を使って、データの即時クローニングとグローバルリカバリを提供している。

これに関連するが、ストレージのアーカイブはほとんどがアクティブ・アーカイブになる。アクティブな部分はWebスケールのオブジェクトストレージをベースとしたアーカイブ・ストレージの新しいクラスとなり、あらゆるデータが即座にアクセス可能な状態に保たれる。おそらく、リレーショナル・データベース管理システム級のI/Oにはまだ向いていないものの、今日のオブジェクトストレージは、情報の検索と取り出し、ファイル・バージョニング、オンラインのデータリカバリ、および解析処理で発生する大量のI/Oに対しては十分なスループットを提供できる。

Cohesityや Igneous Systems他数社の製品は、プライマリNASをWebスケールのオブジェクトベースのアクティブ・アーカイブにコピーする。単にデータを移動するのではなく、コピーすることで、即座に堅牢なバックアップが実現できる。迅速なオンラインリカバリ、必要に応じて細かい粒度でのリストアも可能だ。また、プライマリストレージにあるファイルデータをオブジェクトの形で入手することも可能だ。これにより、ビッグデータ解析、オフサイト・レプリケーション、その他プライマリストレージのパフォーマンスを低下させるかもしれないタスクを、オブジェクトストレージ上で実行できる。

 

非構造化データをもっと活用する方法

グローバル名前空間を作成・公開し、ガバナンスコントロール・ポイント を集約し*訳註4、アクセスを拡大、簡潔化する

オンライン・バックアップレポジトリとアーカイブを作成し、以下を行う。  
- 次世代オブジェクトストレージAPIを提供する  
- エンドユーザーにファイル・バージョニングを提供する
- バックアップTCOを削減する  
- ビッグデータ解析のために、高いスループットとアクセスが少ない データのリードをサポートする

グローバルデータ・コンテントとメタデータ検索システムをサポートする

業務アプリのオーナーにとって効率的なコスト改善策となる解析ツールを 導入する

 

6.ポリシーおよびルールベースの管理

自動化の拡大は、IT全般、とりわけストレージの増減管理とガバナンスにとって重要課題である。オープンソースのiRODSやStarfish Storage、DataFrameworksのClarityNowなどの、ポリシーおよびルールベースのストレージエンジンによって、アクセスとコンプライアンスが要件に従って実行されるようになる。その他に、データ保持期間、エイジング、インデクシング、来歴管理、データインテグリティのチェックなどのライフサイクル管理も実行できる。ルール・エンジンは、大規模なデータ・インジェスト(取り込み)の手助けをし、複雑なバックグラウンドでのレプリケーションやティアリングタスクを動かし、さらにはストレージ上で自律的解析機能*訳註5を実行する。これらの製品は、データ・インジェスト用にメタデータを抽出し、データコンテンツにインデックスをつけるのに使われることが多い。これにより、グローバルサーチ機能の構築や、他ストレージサービスの起動が行えるようになる。

 

7.ユーザーサービスと使用状況監視

最近、エンドユーザーの間では、エンタープライズ・ストレージサービスも個人のストレージサービスと同様に動作して欲しいという要求が高まっている。ファイルストレージのユーザーは、自動バージョニングや自動リカバリを求め、ブロックストレージやオブジェクトストレージのユーザーは、要求に応じて伸縮するクラウドのような拡張性を求める。そして誰もが、迅速なプロビジョニング、直接的なコストの視認性、パフォーマンス、回復力、可用性に関する最低限のサービスレベルの確保、を求めている。多くのストレージ製品が、IT代表であるエンドユーザーにクラウド的エクスペリエンスを提供するものの、エンタープライズ基盤の細かいが大事な部分については知らん顔だ。

ITは、バックアップ、DR、インテグリティに関して、確実なデータ保護を行いつつ、エンド・ツー・エンドのセキュリティも提供しなければならない。多くのストレージ製品が、エンド・ツー・エンドを暗号化した上で稼働し、アクセスポリシーに基づきインプレースでデータマスキング機能を提供し、アクセスと処理の完全なオーディット・トレールを行う。ほぼ無限に容量を提供する拡張性を持ち、伝統的スタイルのクォータとファイルブロッキングを強制するNTP SoftwareのQFSの方式は、これまで以上に重要になる。

 

非構造化データのガバナンス・コントロール方法

コピーデータ・マネジメントはコピー数を減らしマスター・データへのアクセス を確保する

自動ストレージ・ティアリングはアクセスが少ないデータを、稼働中のアプリケーションの邪魔をせずに、クラウドなどの安価なストレージに移動してくれる

アクティブ・バックアップ&アーカイブにオブジェクトストレージ*訳註6を使い冗長な バックアップ処理を削減する

 

 

スーパーストレージに備えよう

この記事で言及したストレージ・ベンダーの多くが、非構造化データ管理の複数のカテゴリーをカバーしている。エンタープライズ全体でコストをコントロールし、データを仮想化するには、容量の最適化、自動化のための良質な*訳註7メタデータが必要である。これがあって初めて、グローバル・エンドユーザー機能の提供と、ITガバナンスの保証が実現できる。また、このリストの機能は、データの地域化やデフォルトでグローバルな本人確認を行う、などのより広範なガバナンス運用を実現するために合わせ技で使われることが多い。

全体的に見ると、これらデータストレージの新機能は、セカンダリストレージに入っている非構造化データセット、とりわけ大規模なものの管理に焦点を合わせている。これらの製品によって、我々は以前よりはるかに貴重な情報を収集し利用できるようになっている。これらの機能はいずれ集約され、我々が今日(こんにち)プライマリストレージのツール、セカンダリストレージのツール、として別々に提供されているものすべてを一つにまとめた、スーパーストレージが登場する日が来るだろう。

 

Mike MatchettはSmall World Big Dataのシニアアナリスト。Twitterのアカウントは@smworldbigdata

訳註1:NFSのような旧来のストレージシステムでは、メタデータ処理(ディレクトリ検索、ファイル・インデクシングなど)が大量の帯域と計算パワーを消費する。この種のオーバーヘッドは往々にして、実データの配信と競合しパフォーマンスの低下を引き起こす。 現在の拡張性に富んだファイルサーバーのシステム(例:HDFS)では、メタデータの処理は、スケールアップ・コントローラーにより帯域外で行われ、データ配信はスケールアウトしたデータノードによって、直接データの利用者に届けられる。

訳註2:この場合のオフラインは、直接データ配信に関与しないでデータを利用する形態を指す。例えば、メタデータをexcelのようなスプレッドシートに入れて容量の分析やモデリングを行ったり、Sparkにメタデータをロードして機械学習をさせたり、など。 一方、稼働状況の最適化、即ち、ロード・バランシング、ホット/コールド・データを異なるストレージ・レイヤーにティアリング、予測的キャッシング、その他ストレージの高速化のために「オンライン」分析を組み込んでいるストレージ・ソリューションが最近増えてきている。 ストレージ容量とストレージ利用の増大によって、メタデータはクラウド・ブローカレージにとって非常に重要になるだろうが、「オンライン」で利用するのか「オフライン」で利用するのかは予測がつかない。

訳註3:クラウド・ブローカレージの流れ自体は必然的なものだが、対価に見合ったサービスを提供しているところはまだ少ない。順番として、ユーザーはまず「マルチクラウド」での運用が可能な環境を構築する必要がある。そうすれば、次にインテリジェントなクラウド・ブローカレージが必要になってくるだろう。

訳註4:多くの名前空間(異なる保存データ)がある場合、誰かがそれら一個一個を管理しなければならない。もし、数十または数百の名前空間を一個の統一されたグローバル名前空間に集約できれば、管理しなければならない「コントロール・ポイント」は一個になる。これにより、データのガバナンス度があがり、企業データの使用が容易になる。結果として、データの価値も高まる。ただし、グローバル名前空間を一個にすることで他の面でのリスクが高まるのは言うまでもない。

訳註5:ルール・エンジンは、解析用の機能を次々と自動的に実行するために使われることがある。これらの機能は、実際にはストレージ内部で実行される。この仕組みは、すでにアーカイブシステムで使われている。アーカイブシステムでは、自動化されたデータポリシーが、新しいデータから主要なパラメーターを自動的に抽出する。近い将来もっと多くのストレージが、自分の内部に保存しているデータに対して、自分がホストサーバーになって、ユーザーが定義した(あるいは、少なくとも外部に提示した)解析機能を実行するようになると思われる。現在、ほとんどのストレージが、マイクロサービスによって作られたコンテナ・アプリケーションを実装している。実際、マイクロサービスを使ってさらに機能を増やすのは非常に簡単だが、信頼性、パフォーマンス、セキュリティを確保するために、適切にアクセス・コントロールを行うのは、おそらく難しいだろう。

訳註6:製品としては、Igneous、Cohesity、 Hedvig、 Rubrikなどがこの機能を持っている。今日、拡張性が高く高パフォーマンスのセカンダリストレージに共通しているのは、アクティブなシャドウ・プライマリストレージとして使える、と言う点だ。例えば、(自動的に変更をコピー/レプリケートするポリシーを設定しておけば)バックアップの継承や(自動的に古いデータを階層化/移動するポリシーを設定しておけば)オンライン・アーカイブを実行してくれる。これらはアクティブシステムなので、アプリケーションやユーザーはこのバックアップデータやアーカイブデータをすぐに利用できる。

訳註7:この場合の「良質な」は、コストと容量の管理に「関係があり、有益な」情報を意味する。さらに、検証可能で正確なという意味をもつ場合もあるだろう。

 

 

 

Copyright 2000 - 2018, TechTarget. All Rights Reserved, *この翻訳記事の翻訳著作権は JDSF が所有しています。
このページに掲載されている記事・写真・図表などの無断転載を禁じます。