TO THE FUTURE NSSOL STORIES TO THE FUTURE NSSOL STORIES

2019-12-01 データ活用
TwitterTwitterでシェア FacebookFacebookでシェア

<技術動向>データ流通時代を支える匿名加工技術

〜機密性、完全性、可用性の3要件満たすデータセキュリティを目指す〜

AI(人工知能)はこれまで以上に多種多様なデータを必要とし、内部データだけでなく外部のデータも活用の対象となる。そのためデータ流通環境の整備が欠かせない。データ流通の実現には、提供側の「個人情報のような機微データを安全に提供すること」と、利用側の「提供されたデータが有用な情報として利用できること」の両方が前提となる。この両立に有効なのが改正個人情報保護法で導入された匿名加工技術である。

大坪 正典
日鉄ソリューションズ株式会社
技術本部
システム研究開発センター
データ分析・基盤研究部
主務研究員

ポイント

  • 機械学習の精度を高めるため外部からの属性データも必要に
  • データを外部に出す前提で情報をコントロールする
  • 「匿名化」は「暗号化」とは別物「仮名化」との違いに注意
  • 医療分野で始まったデータ流通の基盤づくり
  • システムインテグレーション(SI)からデータインテグレーション(DI )へ

機械学習の精度を高めるため外部からの属性データも必要に

AIは、単純作業の機械化を目指す第1段階、複雑なプロの仕事を機械化する第2段階を経て、人間の思考を超えた知能を機械化する第3段階に移行するといわれている。第1段階では人間がルールを与え、第2段階では機械が人間のやり方を基にルールを見出す。これらの段階では、AIの学習に必要なデータを人間が判断し、1つひとつ用意してAIに供給すればよかった。しかしながら第3段階になると、学習に必要なデータは多岐にわたり、人間には必要性が判断できないデータもあるかもしれない。人智を超えた機械学習を実現するためには、これまで以上に良質で多種多様なデータ(いわゆるビッグデータ)が必要となる。

ビッグデータの定義を考える際に「6つのV1)」がよく使われる。優れたAIを実現するためのビッグデータには、大容量(Volume)、多様性(Variety)、高頻度(Velocity)、正確性(Veracity)が求められ、そこから価値(Value)を生み出すために投資(Venality)が必要となる。

私は以前に、ビッグデータによって機械学習の精度が高まるかどうかを検証した2)。具体的には、2値分類の機械学習について、学習するデータ量の増加に伴ってモデルの精度がどのように変化するかを調べた。ここでの「データ量の増加」には、①データ件数の増加と、②データ属性数の増加がある。

検証結果の概略は次の通りである。①データ件数の増加試験では、属性数が少ない(12個)データを学習した場合、データ件数が7500件を超えると精度の向上が頭打ちになった一方、属性数が多い(1万5000個)データを学習した場合、用意していた4万件まで精度が上がり続けた。②データ属性数の増加試験では、属性数が多いほど精度が上がることが分かった(用意していた属性数1万5000個に達するまで精度が上昇し続けた)。

これらの結果から、データ1件にひもづく属性データの数が多くなれば、機械学習の精度が高くなる可能性を秘めていると言える。このことはAI活用の場面において、内部データだけでなく外部からのデータも取り込んで属性数を増やすことが、AIの賢さを高める1つの手段として有効であることを示唆している。なお当時の検証では比較的シンプルな機械学習のアルゴリズムであるRandom Forestを用いたが、近年流行りのDeep Learningを用いれば、より一層ビッグデータの恩恵を受けられるかもしれない。

データ利用側にとって外部データに対するニーズが高まる一方、データ提供側の立場から見たデータに対する考え方は、単純な保有・保護の対象というだけでなく資産としての価値が認識され始めた段階にある。いかに「データを外に出さないか(漏洩させないか)」だけを考えていた時代から、活用に向けて「データを外に出す」動きが少しずつ活発化し始めている。

データを資産と見なすようになれば、「守るべき要素は守りながらも多くのデータを流通させ、使いたい人に使ってもらう方がよい」と考えるプレーヤーが増えてデータ流通時代がやって来る。その際には、企業のデータ活用ライフサイクルにもデータ流通が組み込まれることになる(図1)。

1)ビッグデータのVには多様なパターンがあり、3V(Volume, Variety, Velocity)を基本として、4Vや5Vという場合もある。中には7V以上(6Vの他にVariability,Validity, Vulnerability, Volatility, Visualization)で語られる場合もある。本稿では、Thomas H. Davenport氏が唱える6Vを取り上げた
2)「すべてわかるビッグデータ大全」(日経BP:2014年): 2-5. ビッグデータ分析の精度を検証する

この続きは、以下のPDFをご参照ください。

詳細版ダウンロード(PDF: 1.1M)

関連リンク