JEITAテープストレージ専門委員会コラ
「ダークデータとは!? ビッグデータと何が違う?」

 

私の知る限りでは最初にビッグデータという言葉を使ったのはGartnerで、3つの要素からなると言われている。

 

1. 3V(Volume, Velocity, Variety)に象徴される、生成とリンクのスピードがダイナミックに変化しながら増殖していく多種多様な大容量のデータ
2. コスト効果が高く、革新的なデータ処理技術
3. そしてそれらから得られた結果から、より良いビジネス判断を行うこと

 

ということになるのだが、ダークデータもGartnerが作り出した言葉らしい。
比較的ビッグデータと一緒に使われることが多いダークデータだが、簡単に言うと企業に蓄積されたデータで、有効利用されていないが何らかの理由で保存しているデータということのようだ。業界によっても異なるかもしれないが、構造化データだけではなく、非構造化データも含まれる。特に放送映像業界、監視カメラ産業などは後者が多いだろう。多種多様なデータが有効活用されずに眠っているのである。

 

一見このダークデータはコンプライアンスのためだけに保管している金食い虫のお荷物と思われるのだが、見方を変えると宝の山でもある。現在ビッグデータと呼ばれているものの多くは最近生成され始めた比較的新しいデータである。つまり過去のデータは極めて少ないわけでこれを再度ビッグデータ分析のフローに流せば、より正確な予測、判断ができるのではないか。さらに言えば過去のアナログデータのデジタル化をする時点でそれらの資産を有効活用することを考慮してデジタル化する必要があるのではないか?そのメタデータ作成を人間がやっていては追いつかない、是非とも優れたアプリケーションを使いたいものだ。

 

一方それらのデータを保管する場所と仕組みも必要だ。現在生成され、今後も生成され続けるデータ量も途方もないものだが、過去のデータの再整理、デジタル化、データベース化にも大容量のストレージが必要である。データ量は増加するがコストは下がる一方なので、現在の技術では複数のストレージ技術を組み合わせてこのパラドックスに対応していくのが主流である。低レイテンシーのデータは半導体ストレージへ、4K映画のようにシーケンシャルに鑑賞するが高スループットが必要なデータはテープへ、中間のデータはハードディスクという具合に。さらにスループット重視型のデータでも、その一部、もしくは低解像度のデータを検索性を高めるため、低レイテンシーのデバイス側に保存しておくのもひとつの手である。

 

今まで開けていなかった屋根裏の箱を、暗がりから白日の下に引っ張り出してみたらどうだろう、そこには予期しなかったお宝が眠っているかもしれない。


一般社団法人 電子情報技術産業協会(JEITA) テープストレージ専門委員会
日本ヒューレットパッカード(株) 井上 陽治
リンクが張られていない、タイトルだけの記事は、最新号のメルマガ記事です。
次 回のメルマガが配信された時点で記事にリンクが張られます。
メルマガ登録する と次回から最新記事を読むことができます。
メルマガ登録は無料、非会員でも登録で きます。登録はこちら