JEITAテープストレージ専門委員会コラ
「ビッグデータ時代のデータマネージメントとは?」
フェイスブックは現在2400億枚の写真を保存しているらしいが、それに加え毎日3億5000万枚の写真が一日にアップロードされている。これはつまり、毎月7ペタバイトまたはそれ以上のストレージデバイスを買い続けなければいけないことになる。この問題に直面した彼らは、彼らが保有する写真データの分析を行い、82%のトラフィックはわずか8%の写真で発生していることを確認した。そこで彼らの導き出した答えが「コールドデータ」の活用である。彼らはなんとコールドデータ専用のデータセンターをオレゴンに建設したのである。そこでは発電機もUPSもないのだが、エクサバイト級のデータが保存できる。
このようにアクセス頻度の低いデータを低コストで保管するアーカイブサービスもある。有名なのはAmazonのグレーシアであるが、コストはS3に比べて1桁以上安い。
さてデータはよくこのように「温度」で表現されるのだが厳密な温度の定義はない。 筆者の勝手なカテゴリー分類では以下のようになる。
・ホットデータ :ほぼリアルタイムで使われる。インスタントに取り出せる。
・コールドデータ:希に使われるが読み出し時間は比較的遅くても良い。
・フローズンデータ:一生使われることはないかもしれないが捨てられない。もしくは意図的にアクセスを制限している。読み出し時間にも余裕がある。
それではこれをアーカイブデータに当てはめてみよう。アーカイブの定義は千差万別であるが、今回は筆者が以前定義した「リアルタイム処理以外のデータ全て」ということで話を進めたい。実際センサーデータやSNSを含むビッグデータ分析の分野では、インラインで行うリアルタイムデータ以外のほとんどは全てアーカイブされる。そして分析が終わったオリジナルデータも後からアーカイブされ、ある期間または長期に保管される。これは新たな分析スキームが開発されれば、過去のアーカイブデータから再度分析ができるためである。ここからはアーカイブを分類し、要求条件または適用分野をより具体的にしてみよう。
・ホットアーカイブ
比較的使用頻度が高いデータで、セキュリティよりもアクセス時間が重要。階層ストレージではティア1~2。パフォーマンスディスクからニアラインディスク、次世代の低コスト、低消費電力大容量メモリーなども候補になる。
・コールドアーカイブ
使用頻度はほとんどないが、データ読み出し時間はある程度短いほうが良い。ニアラインディスク、高性能テープシステム等。
・フローズンアーカイブ
使わない可能性が極めて高いが捨てられないデータ。具体的には以下のようなものがある。
1.コンプライアンスデータ - 法規制なので一定期間は保存が必須。SOX法では報告期限は48時間(2営業日)以内と言われているのでデータの読み出し時間よりもコストとセキュリティが重要である。
2.測定データ、研究データ - CERN「欧州原子核研究機構」等の研究データはあとから何が発見されるかわからないので捨てられない。また石油、天然ガス等の資源探査、気象情報データなどは2度と同じデータが取れないため、これも捨てられない。
3.映像データ - 従来の映画のデジタルリマスターも大量になるが、これからの4K、8K時代に生成されるコンテンツ容量はとてつもない。旬を過ぎたデータはアクセスも少なく、特にオリジナルデータはこのカテゴリーになるだろう。
4.ロックアウト - 金融系、安全保障関連のデータなどは、外部からのアクセスを物理的にできないようにわざとオフラインメディアに保管する必要がある。オンラインであれば常にデータの搾取、改竄のリスクから解放されることはないからだ。
5.ヘリテージ - まさに遺産といえるような博物館で管理されるようなデータのオリジナルなどはまさにこのカテゴリーだろう。ただしコストはかけられるので、多重のセキュリティ、冗長性を持たせることもできる。
最近のSNSやクラウドストレージサービスは、データ保管期間に制限があるものが少なくなってきたことに気がついている人も多いだろう。生まれてから自分の一生がSNSで自動的にアルバムになる時代である。今後は半永久的にデータが保存されてもおかしくないのではないか? 困ったことにそれはコールドアーカイブ、フローズンアーカイブといったカテゴリーの容量が半永久的に増加していくことを示唆している。そのため最近では最も低コストで拡張性が高いテープが使用されることも多くなってきた。さらにLTFSの出現でベンダーロックインなくデータが移動できる点も、現代のクラウドコミュニティーの要求と一致している。またSNIAでは、このLTFSをオブジェクトストレージAPI、REST対応に標準化する動きも出てきている。LTFS+テープ+オブジェクトストレージの組み合わせは、今後要注目である。
日本ヒューレットパッカード(株) 井上 陽治
ダークデータとは!?ビッグデータと何が違う?
ビッグデータ時代のデータマネージメントとは?
F1チームがITベンダーになる日
ビッグデータ時代の超整理術とは?
ビッグデータは本当にビッグになるのか?輸送産業編
ビッグデータは本当にビッグになるのか? 医療、ライフサイエンス編
ビッグデータは本当にビッグになるのか?- 医療データのエコシステム 何が必要? -
ビッグデータは本当にビッグになるのか? 空からのデータが世界を変える!?
ビッグデータは本当にビッグになるのか?大容量低コストストレージの本命は!?
ビッグデータは本当にビッグになるのか?メディア業界4Kの次は8K?それとも?
ビッグデータは本当にビッグになるのか?メディア業界4Kの次は8K?それとも? その2
次 回のメルマガが配信された時点で記事にリンクが張られます。
メルマガ登録する と次回から最新記事を読むことができます。
メルマガ登録は無料、非会員でも登録で きます。登録はこちら