JEITAテープストレージ専門委員会コラ
「ビッグデータは本当にビッグになるのか?
-医療データのエコシステム 何が必要?-」

 

■医療先進国米国 50州の約80%は医療従事者がトップ

米国の産業別労働従事者統計推移を見ていると、医療産業の巨大さをつくづく思い知らされる。1990年時点では、労働従事者の一番多い産業は製造業で、全米のおよそ80%の州が製造業関連従事者が一番多いという統計であったのが、23年後の2013年の統計では、約80%の州で医療産業従事者がトップとなっている。製造業がトップの州は東海岸、特に自動車産業の聖地、五大湖周辺のミシガン州と近隣だけになってしまった。面白いのは宿泊、飲食産業がトップの州は1990年も2013年も変わっていない。ご想像の通りラスベガスのあるネバダ州とハワイ州である。

そんな医療先進国米国で最近発行された「Data-Driven Health Care」というレポートがあるので、そこからいくつかエッセンスを紹介してみたい。これはMITが発行しているレポートで、主に今後の医療におけるビッグデータ活用がテーマとなっている。

 

■医療ビッグデータ そのエコシステム

前回のコラムでもいくつか紹介したが、医療ビッグデータとして考えられているものは以下の7つである。

1. 電子医療データ
研究、テストデータ、薬の処方箋データ、電子カルテ等
2. 公共医療データ
国内または州内(日本の場合は都道府県)の公開医療データ
3. 環境データ
センサーデータからの生活習慣特性の分析、位置情報と気象データのマッピング等
4. 医療保険関連データ
薬剤、治療方法の使用傾向
5. 遺伝子データ
低コストシーケンサーの登場により、より多くの遺伝子データを採取可能に
遺伝子と薬剤や治療方法の適合、不適合を予測可能に
6. モバイル機器からの健康データ
行動記録だけでなく、体温、脈拍、血圧、将来的には血糖値に至るまで、患者の身体からのデータを記録する
現在でも10万以上あるといわれる健康関連モバイルアプリからのデータ、さらには今後「ウェアラブル」デバイスの普及がデータ量を押し上げる
7. 家族の医療データ
遺伝による病気の発症を事前に予測したり、予防したりすることが可能になる

上記7つのデータを分析アルゴリズムと予測モデリングから、傾向と洞察を得ることになるのだが、その結果は以下の3つに展開される。

1. 患者
より正確でパーソナライズされた診断により、ホリスティック医療が可能に
2. 医者
最適な治療方法を選択できるサポートツールが開発される
(これは遠隔地治療にも応用できるのではないだろうか?)
3. 研究機関
多くの患者からの詳細データとそれらに付随されるデータが病気や治療の研究に役立つ

 

■ビッグデータ活用の投資は始まっているのか?

そうはいってもビッグデータ自体がバズワードとも言われている状況で、上記のような仕組みを実現するために投資をするのには、二の足を踏む人も多いだろう。しかしながら、世界の医療関連IT企業の買収金額を見ると、2014年のQ1の金額は、前の四半期である2013年Q4から3倍以上の$4B(ビリオン)、日本円で4000億円以上に跳ね上がっている。前回のコラムにも書いたのだが、実は医療へのビッグデータ活用は患者の早期治癒、予防による健康状態の維持という側面だけではなく、ひたすら増え続けている医療費の削減効果が見込まれている。ちなみに米国のヘルスケアセクターは年率8%、およそ年間$300B(約30兆円)の医療費削減を行っている。医療が一大産業として成り立っている反面、医療費の削減は国家の財政の健全化には早急に着手しなければいけない課題でもあるのだろう。

 

■データフローとストレージ

さて、上記の7種類のデータから価値のあるアウトプットを出すまでのデータフローを考えてみよう。単純化したフローは以下のようになると考えられる。

1.センサー、電子カルテ等からの構造化データを分析エンジンへ入力、使わないデータはアーカイブ

2.画像等の非構造化データはメタデータを付与してそのメタデータを分析エンジンへ、それ以外はアーカイブ

ここで重要なのが、非構造化データのほとんどは構造化データにすることが困難だということである。最近では音声認識の識別率の目覚ましい改善に伴い、音声のテクストファイルつまりは構造化データ化も進んできたが、コンテキスト(文脈)を抽出できるアプリケーションもまだ限られているため、精度はまだまだである。たとえば「はし」は「橋」なのか「端」なのか「箸」なのか、前後の文脈から判断する必要がある。

画像に関してはさらに困難であろう。顔認識自体の精度が上がっても、それを構造化データで表すのは簡単ではない。パターンマッチングのような違ったアプローチのほうが向いているのかもしれない。

3.分析したデータからアウトプットを出し、患者、医者、研究者にインサイトを与える

ここでもデータの蓄積つまりアーカイブが必要である。アウトプットの正確性、得られたインサイトからの患者、医者、研究者の行動のトラッキングも必要で、これがループするためさらに大量のデータが生み出される。

では上記データフローにはどのようなストレージが求められるのだろうか? まずはあらゆるデバイスから集められたデータを分析して結果をレポートする、高速でスケールアウト型のストレージ、インメモリーストレージのようなものが必要であろう。一方で構造化データにするのが困難な非構造化データ、分析に使われなかったデータ、さらには最終的な分析結果からの行動パターン等も捨てるのはもったいない。さらに保存期間も長期になることが想定される。患者の過去の詳細なデータ、さらには遺伝学的な見地からの数世代分の家族の医療データも保存しておく必要があるからだ。当然インメモリーには保存しておけない。低コストで低消費電力、容量効率の高いストレージが適している。つまりここでも高性能ストレージと低コストストレージの二極化が進むと考えられる。

 

■今のうちに準備しておくこと

最近電子カルテも普及して、PACSデータ等を効率良く活用できるようにIT化を進めてきている医療関連施設も多いと思われるが、果たしてどれくらいの割合になるのだろうか?大型の医療施設であれば予算もあるが、規模が小さいところではファイル化はできていても、それらの統合までできていないのが現状だろう。そして今後データの種類は増え、複雑になり、その量も飛躍的に大きくなることは想像に難くない。今できること、それは散在したデータを低コストで、さらにあとから有効活用するために取り出しやすい形で保存しておくことではないだろか。最も手軽で経済的な保存方法はテープとLTFSの活用だろう。経済的で信頼性の高いテープをUSBドライブと同じような使い勝手で使えるのだから。


一般社団法人 電子情報技術産業協会(JEITA) テープストレージ専門委員会
日本ヒューレットパッカード(株) 井上 陽治
リンクが張られていない、タイトルだけの記事は、最新号のメルマガ記事です。
次 回のメルマガが配信された時点で記事にリンクが張られます。
メルマガ登録する と次回から最新記事を読むことができます。
メルマガ登録は無料、非会員でも登録で きます。登録はこちら