「ダークデータ」

Keyword

企業内に蓄積されていながら、様々な理由で利用されていないデータ。そのままでは保管費用だけがかかる金食い虫のように思われるが、扱い方によって大きな価値を生み出す可能性を秘めている。ダークデータの活用は企業にとって重要な課題である。

 「未利用魚」をご存じであろうか。見栄えが悪い、調理が難しい、大きさがふぞろい、漁獲量が安定しない等の理由で、網にかかっても捨てられるか、二束三文で売られる魚をそのように呼ぶそうである。ところが最近では、加工技術の進歩や売り方の工夫によって、これらの魚を商品化する動きが日本国内で広がっている。そのおいしさが認められて、現在では高値で取引されている種類もあるようだ。今まで有効活用されていなかった魚を、価値のある水産資源に変える取り組みと言える。

 例えるなら、ダークデータはビッグデータにおける未利用魚であろうか。企業は様々なデータを集めて分析し、その結果を経営に役立てようとする。ITの進歩によって大量のデータを取得する環境も、日々進化している。ところが、せっかく集めた(あるいは集まった)のにその活用方法を見いだせない場合がある。その中には、コンプライアンスの観点から、社外に漏らしてはならない情報が含まれていることもある。むやみに廃棄するわけにはいかず、結果として多額の費用をかけてそれを保管し続けることになる。

 集計や分析が難しい非構造の形式であるため、結果として手が着けられていないデータも存在する。例外はあるが、音声や画像、動画、テキストなどがそれに該当する。これらのデータを分析しやすい形に変換することは、最先端のデータ管理ツールをもってしても簡単なことではない。かくして、企業内に大量のダークデータがたまることになる。

 文字通り日陰に置かれているダークデータを、加工技術によって価値を高めることができれば、企業や社会にもたらすインパクトは大きい。これからはその技術を持つ専門企業が市場でも注目されるだろう。米国のスタンフォード大学が開発した「DeepDive」。英語で「深く掘り下げる」を意味するこのシステムは、機械学習の手法を利用して、様々な非構造化データを分析しやすい構造化データへと変換する。ベンチャー企業のLattice Data社は、そのシステムを使って企業内に蓄積されているダークデータの活用を支援するサービスを提供する。

 DeepDriveの開発に携わった教授らが2015年に設立した同企業を、Apple社が2017年5月に2億ドルで買収したという報道があった。両社とも買収について公式に言及していないので、真偽は不明である。しかし、AIの分野で Microsoft、Facebook、Amazon、Googleといった企業と覇権争いを繰り広げていると言われているApple社が、ダークデータの価値を解き放つことを掲げるLattice Data社に関心を持ったとしても不思議でない。

 乱獲による枯渇が危惧される魚介類とは対照的に、データは今後増加の一途をたどる資源である。一見潤沢だが、それを利用できなければいたずらに保管コストがかかる。IT専門調査会社のIDCによれば、2020年に地球上で生成されるデータの量は44ゼタバイトに達する。その中の37%(16ゼタバイト)を分析する価値があるデータと試算している。見方を変えれば、およそ30ゼタバイト以上が未利用のままのデータとなる可能性もある。1ゼタバイトは、1,000施設分のデータセンターに蓄積されるデータ量に相当するそうである。単純に考えれば、今後3年間で30,000施設分のダークデータが生み出されることになる。

 利益をもたらすも食い潰すも扱い方しだい―。企業は自社に埋もれているダークデータと向き合い、その活用について真剣に考える時期が来ている。

(注)ゼタバイト(ZB):1ゼタバイトは10億テラバイト

田口 仁(たぐち・まさし)
田口 仁氏

アサツー ディ・ケイ M&D事業統括本部 R&D局長

メーカー勤務を経て1999年アサツー ディ・ケイ入社。
主に研究開発部門に所属し、ブランディング手法の開発や、統計・機械学習手法を活用したマーケティングデータ解析などを担当。日本広告学会会員。日本消費者行動研究学会会員。2017年より現職。