ホーム > NSSOLテック・コラム > データセキュリティ > 個人情報の匿名化技術を競うコンテスト「PWSCUP2016」で3位 再識別賞も受賞 データ活用を加速させるデータセキュリティのパイオニアをめざす

NSSOLテック・コラム

データセキュリティ

2016/12/16

個人情報の匿名化技術を競うコンテスト「PWSCUP2016」で3位 再識別賞も受賞 データ活用を加速させるデータセキュリティのパイオニアをめざす

どのようにしてビッグデータを活用していくか――。近年、個人の行動記録や購買履歴といったパーソナルデータの活用に向けて、政府が本腰を入れて動き始めています。しかしながら、パーソナルデータにはプライバシーがつきもので、なかなか活用に踏み切れないといった現状があります。

こうした中、個人情報を守る技術を競うコンテスト「PWSCUP2016(主催;一般社団法人 情報処理学会 コンピュータセキュリティ研究会)」が開催されました。PWSとは、「Privacy Workshop(プライバシーワークショップ)」の略で、データ活用を円滑にするためのプライバシー保護技術にフォーカスした研究集会のことです。

このコンテストに参加した システム研究開発センター 大坪正典さんにデータセキュリティにかける熱い想いをお聞きしました。

「PWSCUP2016」とは

PWSCUPは個人情報を守る技術を競うコンテストだそうですね。

はい、「個人情報を守る技術」という部分を補足しますと「パーソナルデータを活用する際のプライバシーを守る技術」と言えます。今年が2回目でまだ歴史の浅いコンテストですが、今後注目を浴びる可能性の高いコンテストだと思います。

それはなぜでしょうか。

このコンテストの背景にあるのが、2015年秋に改正され2017年から施行される改正個人情報保護法です。改正法には「匿名加工情報」と呼ばれる新しい制度が盛り込まれています。これまで個人情報は基本的に、取得時に提示した目的以外に使ってはいけなかったのですが、政府がパーソナルデータをもっと活用していこうという方針を打ち立てている中で、「個人を特定できない形に加工(匿名加工)すれば目的外での利用を許可します」と改正したのです。

パーソナルデータを活用したビジネスチャンスが期待できるわけですね。

そうですね、しかしパーソナルデータの活用には、まだまだ課題もあります。先ほど「匿名加工すればよい」という話をしましたが、この「個人を特定できない形に加工する」ということが単純ではないのです。数ヶ月前に経済産業省より「匿名加工情報作成マニュアル」が公開されましたが、個人特定リスクの評価手法や匿名加工の処理方法は多種多様で、対象とするデータやその利用目的によって使い分けなければいけません。匿名加工情報の安全性は、加工者の技術力に委ねられている状況だと思います。そういった背景を受けて、今回PWSCUPに参戦しました。

なるほど。では、PWSCUPは、どのように競うものなのでしょうか。

まず全参加チームに共通の400名分の仮想名簿と購買履歴データが渡されます。第1フェーズでは、各チームが配布データを加工し匿名加工データとして提出します。第2フェーズでは、各チームが提出した匿名加工データに対して、別のチームが再識別攻撃(加工前の名簿と加工後の名簿を対応づけて個人を特定する)を試みます。各チームからの再識別攻撃にて、正しい対応づけをされた(個人特定された)数が少なかったチームの匿名加工データが、安全な匿名加工を行うことができたといえます。

<参考>
PWSCUP2016ホームページ
http://www.iwsec.org/pws/2016/pwscup.html
https://pwscup.personal-data.biz/info.php

単に元データが全くわからないように加工すればいいように思いますが。

それがそうではないのです。確かに、匿名加工にとって「いかに再識別させないか」という安全性は重要です。しかしながら、匿名加工データは「その後何かの目的に利用する」ことが前提にあります。つまり、安全性と同じように「どれだけ元データの特性を維持しているか」という有用性も両立させなければなりません。

有用性?

例えば、今回のコンテストには「国籍・性別でグループ分けした時、各グループの購買平均価格について、加工前後でどれだけの誤差があるか」という有用性指標がありました。元データでは「米国男性の購買平均価格は1万円」だったのに、匿名加工後に2万円になってしまったのでは、データとしての価値が下がっている(有用性が低下している)わけです。

要するにPWSCUPでは「元データの特性を維持しつつ、再識別攻撃による個人特定を防ぐ」ことが求められていて、安全性と有用性をうまく両立できたチームが優勝となるわけです。

PWSCUPの様子(手前の3人がNSSOLの「鋼鉄の錬金術師」チーム)

予備戦では苦戦。本戦にて最適化技術を駆使し一気に挽回

では、PWSCUPの実際の状況について聞かせて下さい。

PWSCUPには、3週間ほどリモートで参加する「予備戦」と、参加者が会場に集まって1日で行われる「本戦」とがあります。予備戦は、参加者にとって「本戦の準備期間」なのですが、運営側にとっては「本戦のルール策定期間」とも言えるでしょう(実際に予備戦期間中に何度か大きなルール変更がありました)。実は我々、予備戦の序盤はずっと1位をキープしていたのですが、想定外のルール変更もあり予備戦終了時には大きく後退してしまいました。

最終結果は3位でしたが、上位に食い込めた要因はなんだったのでしょうか?

一番大きかったのは、「最適化技術(※)」を使ったことでしょうか。予備戦の第1フェーズが終わった段階で、他チームの匿名加工データが見える訳ですけれども、様々な他チームの加工データを分析することで、ある程度「高得点を取るための加工方法」が分かってきます。そうした加工方法について検討していく中で、最適化技術の適用に至りました。

(※) 参考:当社における最適化技術について
進化する最適化技術 VOL.1-「日程くん」でJリーグの試合日程作成を絶妙にアシスト!

最適化を使うことで順位を上げることができた、と。

はい、先ほどお話した有用性指標を向上させるために最適化を使ったのですが、有用性についてかなり良いスコアを出せました。予備戦の結果がそれほどでもなかったチームが、本戦でいきなりすごいスコアを出したので皆さん驚いたと思います(笑)

「再識別賞」という賞も受賞しましたが。

再識別賞は優勝したチームの「匿名加工データ」に対して、最も多くの個人を特定したチームに与えられる賞です。再識別は「攻撃力」とも言えますが、攻撃の方法を多く知っているからこそ守りも強くできる。両方の技術を持っていることは大切だと思っています。

匿名加工には様々な技術が必要なのですね。

そうですね。匿名化技術にはいくつか整理された手法がありますが、実戦の場では匿名化技術だけでなく様々なデータ処理技術を持っている必要があるということを、コンテストを通じて感じました。

当社のシステム研究開発センターには、最適化技術を研究しているグループやデータ分析を研究しているグループがあり、そうした技術を組み合わせることができる状況にあるというのが我々の強みだと思います。

NSSOLのチーム「鋼鉄の錬金術師」のメンバー(左より大坪さん、江守さん、波多野さん)
PWSCUP3位の賞状、「再識別賞」の賞状、副賞にいただいた"なまはげの暖簾"(コンテストの会場が秋田だったため)を持って。

自分たちがデータセキュリティ分野をけん引してく

ところで、NSSOLがこうしたデータセキュリティに取り組む背景を教えてください。

これまでは「データは企業の外に出さない」ことが大前提でしたが、これからは「企業間でデータを流通させて、より大きな価値を見出す」いう動きが加速されるはずです。今後個人情報は、匿名加工することにより他企業のデータと結合したり売買したりすることができる様になるので、匿名加工のニーズが高まることが想定されます。しかしながら、「どう匿名加工すれば安全なのか」という具体的な処理については、国や専門家の間でも検討中で実は誰も答えを持っていないというのが現状です。

そうした中で、私たちがプロフェッショナルとして「安全とは何か」を担保していかなければならないと思っています。今回PWSCUPに参加した目的も、自分たちが匿名加工したデータが他の専門家にどの程度再識別されるかを検証することにありました。

そのPWSCUPでの3位をどのように受け止めていますか?

まずは、初参加で3位に入賞できたことは喜ばしいことだと思います。しかし1位ではないわけですから、技術力向上のために継続して研鑽する必要がある。今後も挑戦する機会があれば、是非頂点を目指したいですね。

一方でPWSCUP(匿名化分野)は未成熟な領域なので、順位にこだわるよりはコンテストそのもののレベルをどう上げるかが大切だとも思っています。このコンテストを通じて匿名加工に対する認知度や匿名加工技術のレベルが上がれば、日本の産業の発展にもつながる。そういう意味で、今回のコンテストを通じて他チームと意見交換して勉強になりましたし、PWSというコミュニティにおいて当社のようなSIerがいきなり3位を獲っていったというのは、コミュニティにとっても良い刺激になったのではないかと思っています。

大坪さんがこの分野に興味を持ったきっかけは?

私は以前、Hadoopに関する研究をしていました。Hadoopはコンピュータを数十~数百台規模で並べてビッグデータを処理する製品なのですが、Hadoop技術者としての大きな悩みは「日本にはビッグデータを保有する企業があまり多くない(データがあっても投資対象にならないことが多い)」ということでした。つまり、Hadoopの需要が思ったほど高まっていかないという状況でした。

もっとHadoopの需要を高めるためには、ビッグデータを処理することで生み出される"価値"を創っていかなければならない。1つの企業が持つデータから価値を生み出すのが難しいのであれば、複数の企業が持つデータを組み合わせて価値を創り出せないか。そこには大量のデータが存在し、Hadoopの需要があるはずだと考えたのです。そういった考えもあって、以前から「複数組織のデータが集まる場所(=データバンク構想)」を周囲の人に訴えてきました。

そのデータバンクを実現するための第一歩として重要なのは「企業がデータを出してくれること」なのですが、その障壁になっているのが情報漏洩に対する不安感。それを解決する糸口の一つが"データセキュリティ"なんですよ。こうした背景があって、データセキュリティに取り組もうと思いました。

なるほど、データセキュリティ技術がどれだけ進むかが、日本の新しいマーケットを生み出すカギになるということですね。

はい、私たちが「これが安全だ」と言える存在にならないと、という使命感を持って取り組んでいます。

最後に、大坪さんの今後のビジョンについて教えてください。

「今後はデータセキュリティが重要だ」という価値観を世の中に植え付けていくために、日ごろから「データにもセキュリティが必要なんです」とひたすら言い回っています(笑)そうした価値観が広まって、既存のセキュリティ技術と同じくらいにデータセキュリティも必要とされる世界にしていくことが大きな目標です。

NSSOLがこの分野をけん引していけるといいですね。ありがとうございました。

関連する記事