JEITAテープストレージ専門委員会コラ
「ビッグデータ時代の超整理術とは?」
20年くらい前に「超整理法」という本が話題になった。本の目次を読んだだけで内容を理解した気になってしまう筆者は、当時それを実践しているという同僚にその要旨を聞いた。要はすべてをファイルに整理して入れるのではなく、大雑把にまとめて必要な時に取り出せるようにしておけば良いということだったと記憶している。
キングファイルの時代は終わった? ドイツ人と日本人の違い
当時の職場はPC導入の過渡期でありほとんどは紙ベース。そこではキングジムなるものが全ての情報の集約先だった。名前も「王様」というだけあって非常に堅牢な作りのファイルホルダーであったが、これに如何に紙を綺麗に折ってファイリングし、後からも見やすくするかを社会人になりたての頃は習ったような気がする。ところがこのファイル、その都度作るものだからあとから見ると非常にちぐはぐなファイル構成となってしまうことが多かった。もともとプロセスが決まっているものならば最初からファイルを用意するのだが、個人的に収集している情報はなかなかそうもいかない。
一説によるとドイツ人は仕事を始める前に最初にファイルとタグ付け、それらをしまう場所を用意するという。一方日本人はその都度思いつくままに新しいファイルを用意するため、非常に煩雑になるとのことだ。当時はこのドイツ的手法が優れていると感心したものだが、はたしてその手法がいつの時代も優れているのか? 変化が激しく情報も大量に発生する今の時代、もしかしたら型にはまった情報の整理よりも、もっとフレキシブルな情報の整理方法があるのではないか?
なんでもボックスにざっくり入れておき必要な時に探せば良い
情報の量、スピード、種類が無秩序に増えていく現代では従来の予測可能な時代のファイリング手法では限界があるのではないだろうか。ホルダーの作成、整理だけにどんどん時間を取られるが、本当に必要になるかどうかもわからないそれらのデータにそれだけの労力と時間をかけて良いのだろうか? そんな現代にこそ「ざっくり箱に入れ」、「必要な時にさがす」手法がフィットするように思う。
それってオブジェクトストレージ?
さて、前述の超整理法の主な特徴を列記してみよう。
・ | とにかく後から分かるようなタグ付けをして箱に放り込む |
・ | ディレクトリ、サブディレクトリといった階層構造がない |
・ | 時系列に保管、使用した箱は一番前に移動するため「新しい」ものと「よく見る」データが前に来る |
これらの特徴を見て思うのは、「これって紙をデジタルデータに置き換えればオブジェクトストレージとHSMではないか?」ということである。HSMとは「階層構造ストレージ管理」という意味で、よく使うデータをホットストレージ(フラッシュ等)、それ以外はコールドストレージ(SATAディスクやテープ等)に自動的に移動してくれる概念である。
階層管理のパラダイムからDiscoveryで必要な情報を探す時代に
3つのVで特徴が表現されるBIG DATAは「Variety(多様性)」、「Volume(拡張性)」、「Velocity(単純性)」を特徴とするオブジェクトストレージにフィットする。情報を探すのも、今後は情報の場所(どのホルダーのどのディレクトリ)ではなく、オブジェクトのID、名前、拡張子、メタデータで検索して探す方が効率が良くなる。ところがここでも問題点がある、PCのブラウザーでの検索でも適切なキーワードを入れないとなかなか期待している情報が読み出せない。完璧なメタデータを入力すれば良いのだが、それを考え、入力するだけで日が暮れてしまいそうだ。
探す時にメタデータの質が大事?自動化が鍵か?
情報過多のこの時代に完璧なメタデータのいちいち考えている余裕はない。そこで最近は検索性に優れたメタデータの自動生成をしてくれるソフトウェアが登場してきている。センチメント分析とか呼ばれるソフトウェアだ。おそらく多くの検索エンジンにも導入されていると思うが、最近はかなりレベルが上がり、的はずれなものが少なくなってきた。
安全に保管するには? リードオンリー時代の幕開け
もう一つオブジェクトストレージの特徴として、既に保存されたオブジェクトを更新することができないというものがある。これはある意味改ざんできないWORMのような要素があるとも言えるが、今後は「生成されたデータはずっと保存」する時代になっていくという流れにも一致する。それで思いつくのはLTFSである。これは追記型のテープファイルシステムで過去のデータと履歴はそのまま残り、メタデータもオブジェクトと同様、自由に追加することができる。LTFSとオブジェクトストレージ、今後これらが相互に活用される時代が来るかもしれない。
日本ヒューレットパッカード(株) 井上 陽治
ダークデータとは!?ビッグデータと何が違う?
ビッグデータ時代のデータマネージメントとは?
F1チームがITベンダーになる日
ビッグデータ時代の超整理術とは?
ビッグデータは本当にビッグになるのか?輸送産業編
ビッグデータは本当にビッグになるのか? 医療、ライフサイエンス編
ビッグデータは本当にビッグになるのか?- 医療データのエコシステム 何が必要? -
ビッグデータは本当にビッグになるのか? 空からのデータが世界を変える!?
ビッグデータは本当にビッグになるのか?大容量低コストストレージの本命は!?
ビッグデータは本当にビッグになるのか?メディア業界4Kの次は8K?それとも?
ビッグデータは本当にビッグになるのか?メディア業界4Kの次は8K?それとも? その2
次 回のメルマガが配信された時点で記事にリンクが張られます。
メルマガ登録する と次回から最新記事を読むことができます。
メルマガ登録は無料、非会員でも登録で きます。登録はこちら