JEITAテープストレージ専門委員会コラ
「データマイグレーションのためのメタデータ」
~継続的マイグレーションによるデジタルデータの長期保存~

 

日々生産される様々なデジタルデータは、紙やフィルムに記録された既存の情報から変換されるデジタルデータと共に、その量を継続的に増加させています。そのようなデータの中にはそもそも長期にわたっての保存を目的として作られたものも少なくないでしょう。しかしながら、デジタルデータを保存しているストレージデバイスで、100年以上の長期にわたって大量のデータを安全に保持できる実用的なものは、残念ながら現在のところ存在していません。

 

その対策として当長期保存 分科会は、繰り返しデータマイグレーションを続けていくことこそが、データを長期にわたって保存するための解決策であると考えました。データマイグレーションは手間のかかる作業ですので、継続的に行うためには作業の自動化が求められるでしょう。つまり、ユーザーの知らないところで自律的にデータがより新しいデバイスに次々とマイグレーションされていく、そのようなシステムである必要があります。

 

また、異なるデバイスにデータを移動していく必要があることから対象データはどのようなデバイスでもサポートしている「ファイル」の形式でマイグレーションされていくことを想定します。LTFS(Linear Tape File System)の登場でテープストレージシステムでもファイルのままでの読み書きが可能になったことで、ビット単価の低いテープストレージをマイグレーション先に選択することが出来ることは、このような継続的マイグレーションの維持コストを抑えるのに貢献するでしょう。

 

そのようなシステムを想定したとき、ユーザーはマイグレーションが行われていることは知りませんので、元々のファイル名でデータを探すことになります。ですので、元々あったところから(知らない間に)別のところに移動してしまったデータを、元々のファイル名で見つけ出す仕組みが必要になります。そのための鍵が「データマイグレーションのためのメタデータ」となります。下記のURLにメタデータを紹介した資料を公開(2013年7月)しました。

 

http://home.jeita.or.jp/cgi-bin/about/detail.cgi?ca=1&ca2=292#migration

 

長期間にわたるデータの保存のことを考えると、上述のような仕組みを実現するシステムが特定の企業による独自のシステムであることは、当然ながら得策とは言えません。あるシステム内でマイグレーションを繰り返して保存されてきたデータは、そのシステムに縛られることなく新しい別のシステムに引き継がれ、再びマイグレーションの繰り返しによりその保存期間を延ばしていく・・・異なるシステム間で共通のメタデータの定義があれば、システムの違いを超えた「継続的なマイグレーション」が実現できると考えたことから、当分科会でメタデータを検討することとなりました。

 

資料では、必須メタデータと任意メタデータの二種類のメタデータを紹介しています。必須メタデータには継続的マイグレーションを維持するための最低限必要な情報をピックアップしました。特に、その対象となるデータが一番最初になんという名前でどこに保存されていたのか、という情報は最も重要なものになります。他にはマイグレーション作業が実施され、データが一部も欠けることなくそのままの形 で移動されたことを確認したことを示すフラグや、マイグレーション単位を区別するためのUUIDなどを必須メタデータにあげています。

 

データマイグレーションに大事なことの一つに、「関連性のあるデータはまとめて移動する」というものがあります。この「データのグループ化」のために、ファイルシステム上のディレクトリ構造を利用することを想定しています。大きなディレクトリをひとまとまりのデータとしてマイグレーションする際には、そのディレクトリに含まれるファイルが複数のストレージメディアに分散されてしまう可能性が大きくなるので、ディレクトリが分割(スパニング)されてしまった時のためのメタデータも必須メタデータの一部としました。

 

これら必須メタデータはマイグレーション対象のデータ毎に必要となってしまいますが、上位ディレクトリと同じ内容の場合は省略するルールや、データを保存するファイルシステム自体のメタデータを流用するルールを用いて、メタデータの総量を減らす工夫も提案しています。

 

任意メタデータには必ずしも必要ではないものの記録する可能性が高いと思われる、一般的なファイルシステムのメタデータを中心に並べてあります。任意ではありますが、マイグレーション対象データが既に値を持っている場合にはマイグレーション先のメタデータにも継承させて保持するのがよいでしょう。

 

今回の資料で紹介したメタデータは分科会でのこれまでの議論をまとめたものですが、実際に使用するにはさらなる議論を必要とするでしょう。しかしながら、近い将来、貴重なデータを長期にわたって保存するために、この考え方に基づく共通メタデータセットを使用した、互換性の高いシステムが開発されるよう努力したいと思っています。


一般社団法人 電子情報技術産業協会(JEITA) テープストレージ専門委員会
日本アイ・ビー・エム(株) 板垣 浩