ホーム > NSSOLテック・コラム > データ分析 > 「KDD Cup」2位獲得を機にIT系専門メディアに記事執筆 データサイエンティストが将来のビジネスを予測する

NSSOLテック・コラム

データ分析

2016/07/25

「KDD Cup」2位獲得を機にIT系専門メディアに記事執筆 データサイエンティストが将来のビジネスを予測する

昨年(2015年)、データ分析の大会では世界的な権威であるKDDカップで2位を獲得後、KDDカップのチームメンバーとともに「データサイエンティストの思考法~KDD Cup世界第2位の頭の中~」というタイトルでIT Leadersに寄稿していたソリューション企画・コンサルティングセンター 西川大亮さん。寄稿を終えたところで西川さんとデータ分析との関係についてお話を伺いました。

IT Leadersへの寄稿お疲れさまでした。今回の連載で何か反応がありましたか?

事例紹介でも製品紹介でもない、珍しいタイプの講演依頼もあり、今までにない貴重な体験をさせていただきました。その他の反応として嬉しかったのは、記事を読んで社内の営業さんから「よくわかった」と声を掛けられるようになったことでしょうか。システムインテグレーターであるNSSOLの中ではデータ分析は異質であり、SEの業務とは違うので、何をしているのかわからないとよく言われていましたが、連載が理解してもらえるよいきっかけになったようです。

<講演はこちらをご参照ください>

データ分析業務が理解されてなかったというと?

私が2013年の夏にシステム研究開発センター(シス研)のデータ分析グループのグループリーダーになった時点では、NSSOLで年間何百ものプロジェクトが走っている中で、データ分析関連のプロジェクトは数件程度でした。

なるほど、案件が少なかったからあまり知られていなかったということですね。

はい、質的に違うのはもちろんですが、そもそも数がない。そのような状況だったので、データ分析をNSSOLのビジネスに役立てるために何を研究開発すればいいのか、正直難しいなと感じていました。

そこで、まずはデータ分析グループメンバー全員が実プロジェクトで経験を積もうと考え、最初の半年は積極的に事業部対応を行いました。実際に案件に入ってみると、NSSOLという会社でデータ分析をするということの課題や強みがみえてきました。

どんなふうにですか?

データ分析は現場それぞれの課題に取り組むことが多いので、現場に行く必要があります。工場や倉庫、店舗は分散します。単に分析結果の共有のために人が移動すると、それだけでかなりの時間を使ってしまいます。加えてデータ分析のプロジェクトは数名の小規模でありながら多種多様なので、ノウハウを残し共有する効率的な仕組みがないと勝ちパターンを見つけて繰り返すことも難しい。

解決策として考えたのは、データ分析環境を標準化し、仮想化したサービスにすることです。これでロケーションフリーになりますし、ノウハウをその環境に入れ込むこともできます。さらに環境をつくったり削除したりするのも簡単にできるので、短期間で1つのテーマを終わらせるデータ分析業務にも合う。そういう対策を取ればいいのだ、ということが見えてきたのです。

もともと、データマイニングと言われていた時代から、データ分析の業務は属人性が高かった。ですがデータ分析の需要が伸びる中、組織で対応するためには業務の標準化をしたい。標準化はSIerが得意とするやり方でもあります。現時点でのベストのプロセスやツールを利用し必要であれば内製し、技術の進歩に合わせて更新していくためにも、標準化は必須だと考えました。

なるほど。そのアイディアはどうなりましたか?

その成果物が、2013年から準備して2014年前半で開発したデータ分析統合環境「Data Veraci(ダータヴェラーチ)」になります。
もちろん、Data Veraciを作ることが目的ではありません。自らData Veraciを使って仕事をする中で、課題を見つけて改善を重ねることで、お客様にも自信をもって進められるサービスを目指しています。

※プレスリリース

2015年のKDDカップもData Veraciを使ったのですか?

はい、KDDカップに参加したのはData Veraciの検証が大きな目的でした。もちろん、メンバーそれぞれのスキルアップなどの側面もありますが、私としては業務よりは自由度が高く、とはいえメンバーが真剣に取り組む競技の世界でData Veraciの検証をしたいと思っていました。

どう検証したのでしょうか?

KDDカップには、私のグループの研究員と、当社の関連会社でデータ分析専門企業である金融エンジニアリング(FEG)のメンバーでチームを組んで参加しましたが、シス研は横浜に、FEGは東京にオフィスがある。拠点が離れているので集まって共同作業するのが難しい。そこでData Veraciを使い、オフィスの拠点ごと、出張先や自宅も含め、メンバーが離れていても同じデータ分析環境でタスクを遂行し、密に情報共有やコミュニケーションを図りながら、高度なレベルで課題解決できるかどうかが検証テーマでした。

KDDカップで2位になったのはData Veraciを使ったのが大きかったのでしょうか。

もちろん、個々人の能力の高さが前提になります。最初はみんな個人で参加していたのですが、シス研の一人がおもしろい手法を思いついてポンと二位になった。それを見てFEGが本気になって一位になった。そこまでは個人の力です。その個々人を集めてひとつのチームをつくりました。そして期日の直前までスコアを伸ばしながら1位を維持できたのは、メンバーの能力をData Veraciで集結できたというのが大きいと思います。

FEGのメンバーには初対面の方が多く、最初は各々の得意分野も把握していない程でした。Data Veraciには、メンバーがつくったスクリプトが格納してあるので、それを読み、チャットでの会話でこの人はここが得意かな、ここなら自分が貢献できるかな、となってだんだんチームになっていきました。

最初バラバラのチームが2位になれたのはすごいですね。

私は優勝を狙っていました。メンバーにも最初から「これだけのメンバーを集めたのだから当然優勝でしょう」と言っていました。コンペ慣れしているFEGさんからは呆れられていたようですが(笑)でも、実際にずっと1位でした。それが残り28時間で抜かれて2位になってしまって。今考えても悔しいです。

2015年 KDDカップにおける西川さんのプレゼン

惜しくも優勝を逃してしまって本当に残念でした。ところで、西川さんはデータ分析をいつからされているのですか?

ビジネスとして本格的にデータ分析を始めたのは、データ分析グループに異動になってからです。それまでは同じシス研でアプリケーション分野の研究開発をしていて、ちょっと複雑なアルゴリズムを考案するのが仕事でした。例えば、医薬品などの低分子化合物の化学式の形状を検索条件に入れると、その形状が入っているものや似た形を見つけてくるアルゴリズムとか。人工知能や機械学習も利用する分野です。

人工知能とか機械学習は今、とてもトレンディーですね。

そうですね、何度目かのブームですね。大学でも人工知能系の研究室に入っていました。ただ、人工知能とか機械学習そのものの研究というよりは、応用側の研究でした。

応用というと?

「筋電義手」という筋肉が収縮するときの電流を拾って動かす義手があります。腕には切断されても筋肉は残るので、手を動かそうとするとその筋肉が動きます。そのとき、筋肉を動かすために電流が流れます。でもそれは筋肉を動かすための電流なので、それと「今握ろうとした」とか、「親指曲げようとした」といった人間の意図を結び付ける必要があり、筋電義手が機械学習によって対応関係を結び付けます。機械学習で複雑な動作ができる筋電義手を実現させることを研究目的としていました。

そういう仕組みで動いているのですね。

ただ難しいのは、人間は賢いから、義手が動きづらかったら「こうすれば動くだろう」と自分で動きを調整してしまう。でも義手は調整後の動きは学習していないから人間のイメージと動きがずれていく。機械学習の仕組みとしてどのデータを追加で集め、どの古いデータを捨てればいいのかが学位論文のテーマになりました。

そうした下地が今に生きているのですね。
ところで、これからデータ分析ビジネスはどのように広がっていくと思いますか?

これまでは、「消費者の購買履歴」のような、「人の明確な行動」を中心にデータが取得されていましたが、これからは、「パソコンのカーソルをどう動かしたか」といった、よりあいまいで細分化されたデータが、膨大に取れるようになります。

しかし、そういった細々したデータは、個別では意味を持っていません。このデータを集積し、膨大なデータを煮詰めて濃縮して、社会や人に役立つサービスに応用する技術が求められるようになります。これは人工知能や機械学習でチャレンジすべきテーマであり、人手では処理しきれない膨大な情報から、問題や課題を抽出する技術が確立されることが重要になるでしょう。

煮詰めた情報を利用できるようにするには、システムやアプリケーション、サービスとして完結させる技術が必要不可欠になります。うまくいくかはデータに強く依存するので、事前に予測することは困難です。ですからデータ分析の分野では、大規模なプロジェクトを長期間にわたって取り組むようなスタイルではなく、世の中のニーズに合うものを見つけ、小さな規模のサービスを限りなく早い開発スピードで提供するサイクルのプロジェクトが増えるでしょう。

開発スピードを早めるには、ビジネスユニットも小規模になりますね。

そうですね。データを活用したビジネスを短期間で完結させるには、データ分析だけではなく、企画力、開発力、技術力、ノウハウなどを併せ持つ、これまでになかった新しいタイプの人材の育成や、新たな組織づくりが求められてきます。顧客のニーズに則したシステムやサービスを、1人もしくは少人数で、短期間で完結させるビジネスのスキームに変わっていくでしょう。

この観点でいうと、分析スキル・ITスキル・ビジネススキルをバランス良く持ち合わせた人材や組織が活躍する時代に移り変わっていくのでは、と感じています。

ありがとうございました。これからもまたお話を聞かせてください。

※本文における「データ分析」とは統計解析などデータサイエンティストによる高度な分析を指しております。

リンク

関連する記事