自己研鑽・交流・遊びの場。NSSOLのデータサイエンティストが語る、Kaggleの魅力。
~Kaggle GrandMaster/Master Interview~
AI/機械学習を用いたデータ分析技術を競う世界的コンペティションプラットフォーム「Kaggle(カグル)」。世界中のデータサイエンティストやエンジニアら18万人が参加し分析技術の腕を競い合う。このコンペティションで秀でた成績を残した人には「称号」が与えられます。
中でも、「Kaggle Competition Master」は日本に約200人、「Kaggle Competition GrandMaster」は世界に約263人しかいない、まさに高い技術・知見を持つデータサイエンティストの証となっています。NSSOLのデータサイエンティストはこれまで何度もコンペティションで好成績を収め、Master・GrandMasterが誕生しました。今回はそのメンバーを中心にKaggleの魅力を語ります。
話者プロフィール
- 技術本部 システム研究開発センター
- 太田 憲昭さん(Kaggle Competition GrandMaster)
- 佐藤 和樹さん(Kaggle Competition Master)
- 山岡 信介さん(Kaggle Competition Master)
- 横井 慎吾さん(Kaggle Competition Master)
- DX&イノベーションセンター
- 德竹 眞人さん(Kaggle Competition Master)
コンペはいつも「気づき」を与えてくれる
─みなさんはデータ分析に関わる業務をされているとお聞きしていますが具体的にはどのようなお仕事でしょうか。
佐藤:私たちシステム研究開発センター(以下、シス研)のメンバーはインテリジェンス研究部データ分析第1グループに所属していて、そこで機械学習・深層学習などデータ分析技術の最新動向を調査し、実課題への適応を目指した研究開発をしています。また研究だけでなく、事業部の実案件に参画しデータ分析を通じてお客様の業務の高度化やビジネスの改善・改革の支援をしています。
徳竹:私の所属するDX&イノベーションセンター(以下、DXIC)データテクノロジ&コンサルティング部データサイエンスグループは、顧客のデータ利活用の高度化と規模拡大への貢献を目指す組織です。具体的には、AI・最適化といった技術を基に、顧客業務に寄り添いデータ利活用テーマ検討から実行までの支援や、特定の顧客に限らない課題へのアプローチとしてソリューション企画を実施しています。また、顧客・自社向け問わず、データ分析・企画人材の育成にも取り組んでいます。
─なるほど。高度なデータ分析力が求められるお仕事をされていますね。
そんなみなさんは、これまでKaggleのさまざまな分野のコンペに挑戦されています。一番印象深いコンペはなんでしたか?
佐藤:2020年のRSNAコンペですね。胸部CT画像から肺塞栓症という病気を予測するもので、金メダルをギリギリでとり逃してしまい、悔しい思いをしましたが、それをきっかけにさらにKaggleにのめり込むようになりました。
山岡:印象深いと言えば2019年のBengaliコンペでしょうか。文字認識というシンプルなコンペではあるのですが、データセットの観察が甘く、大きく順位を落とした経験からデータをよく見て考えるという戒めになっていると思います。
太田:どれも思い出深いコンペばかりですが、強いて挙げるならPANDAコンペを紹介したいです。病理の画像から前立腺がんのグレードを当てる内容でした。期間中に色々なことを考え試行錯誤してようやく獲得できた金メダルは格別でした。
- 【参考】
- NSSOLチーム、世界的なデータ分析コンペKaggleで第4位
本コンペについては、解法も高い評価を受けたため、医療画像の国際会議で汎化賞も受賞した。 - NSSOLチーム、医療画像の最高峰国際会議MICCAI2020ワークショップにて汎化賞を受賞
横井:どのコンペも印象に残っていますが、初めて本気で取り組んだ「Mechanisms of Action Prediction」ですかね。創薬の実験で得られた遺伝子発現のデータから化合物の作用(MoA)を予測するコンペでした。社内メンバーでチームを組み、力を合わせて銀メダルを取ることができました。全力でコンペに取り組むと、さまざまな知見を学べることがわかったので印象に残っています。
徳竹:2021年に参加した「G2Net Gravitational Wave Detection」が印象に残っていますね。ブラックホール連星が生み出す重力波の信号を検出するコンペで、社内チームで参加しました。時には夜遅くまで議論しアイデアを出し合うことで、汎化性能の高いモデルを作ることができました。学生時代に宇宙物理学を専攻していたこともあり、テーマ自体にもワクワクして取り組めましたね。
─ありがとうございます。ちなみに、先日、入賞を果たした「Google Universal Image Embedding Challenge」とはどのようなものだったのでしょうか。
山岡:このコンペの課題は「さまざまなドメインの画像群から、検索対象と同じ物体が写っている画像を見つけるモデルを作成する」というものでした。通常のコンペでは主催者から「学習データ」が提供されるのですが、このコンペでは「学習データ」は一切提供されませんでした。そのため、与えられた課題を解くだけではなく「どのようなモデルを構築するべきか?そのためにはどのようなデータを集めるべきか?」という部分から俯瞰的に考えることが求められました。
横井:いままで取り組んできた画像系コンペの知見が活かせたことも大きいです。
太田:闇雲に手を動かすのではなく、まずはアプローチをよく検討して3人で一つずつ検証したことが功を奏しました。
最新技術を試し、世界と競い合うことで、自分が磨かれる。
─みなさんがKaggleに取り組む意義を教えてください。
横井:データ分析は、とにかくやり続けないと、スキルも考え方もすぐに衰えてしまうので実践の機会がとにかく重要です。Kaggleを通じてデータ分析の実践を繰り返すことで、さらに技術と知見を磨いていきたいです。
佐藤:Kaggleは、国内外のデータサイエンティストとの交流の場でもあります。技術情報の収集する機会にもなりますし、何より専門同士の交流は刺激になります。また、応用研究がメインのシス研にとっては、最新技術を試す環境としても役立っています。
山岡:Kaggleは研鑽に向いていると思っています。案件では使われないような技術を試すこともできますし、他のデータサイエンティストが同じデータに対してどのようなアプローチを取るのかを知れる場でもあります。また、参加によって得られる経験やスコア・順位を通じて対外的に実績をアピールできる場とも捉えています。
徳竹:「自分たちの技術・アイデアで世界と競うことが楽しい、ワクワクする」というのが、一番のモチベーションですね。今後はシス研に限らず同志を増やして、人材育成にも貢献していきたいです。
リアルな課題に取り組むKaggleだからこそ培える、技術と経験と洞察力。
─皆さんは、Kaggleから何を得ているのでしょうか。
横井:Kaggleでは、現実に存在する課題に近いテーマが出題されることも多くあり、Kaggleの場を活かして実案件をイメージした試行錯誤を行えます。すると、実際にそうした課題に関連する案件をご依頼いただいた時に、そのおおよその難易度や解決に向けた糸口をイメージしやすくなります。
また、複雑な問題を依頼された時も、Kaggleで似たテーマに取り組んだ経験があると、「この部分はこうすれば解ける」「ここなら、すぐに着手できる」と、アプローチ方法を検討する際に経験を生かせる場面もあります。
太田:私は普段の業務で画像認識の技術を活用したプロジェクトに多く取り組んでいて、Kaggleでも画像系のコンペに多くチャレンジしています。それらの経験から「問題へのアプローチの組み立て方」「モデリングの勘どころ」「それらを実現する実装力」「ライブラリのマニアックな知識」などが培われたと実感していて、こうした技術は普段の業務の至る所で発揮されています。
─Kaggleを通して実業務で用いるスキルを養っているのですね。
徳竹:Kaggleで分析スキルを磨けるのはもちろんのこと、実案件での分析テーマ企画段階でも大いに役立ちます。データと向き合い、一連の分析を行った経験がないと、「このデータがあるなら、この課題はどれくらい解けそうなのか」を見積もることができません。また、Kaggleには、追加データを使っても良いコンペもありますが、「どんなデータを用意すれば、課題を解けるか」を考えるのは、まさにビジネスの上でも役立つものです。
─具体的な事例はありますか?
徳竹:私がIoXソリューション事業推進部にいた時に、画像認識でブドウの収穫量や病害を検知するソリューションを担当しました。この案件では、「植物の葉の画像から病害を分類する」コンペを始めとする画像認識系コンペでの経験が生きています。
─なるほど、似たような課題というのはあるのですね。
徳竹:はい。例えば、「撮影距離、用意する学習データの枚数、考慮すべき気候・成長時期などのバリエーション」などを見積もる際に、コンペでデータと向き合った経験が活きています。そうした見積もりを立てる“勘どころ”の有無が、実案件では必要です。このあたりの知見はドメインが異なるテーマでも流用できるので、Kaggleで得た知見が役立つシーンは多いです。私自身も、シス研のメンバーと一緒にKaggleに参加したことで、この大切さに気づくことができましたね。
─データの分析・利活用を専門とするシス研やDXICの皆さんならではの視点ですね。
Kaggleがビジネスを広げるきっかけになる
─KaggleはNSSOLのビジネスにどうつながっているのでしょうか。
山岡:Kaggleでの実績は公開されているので、それらの実績はクライアントにとってもひとつの安心材料になるかと思います。実際、私たちも「Kaggle Masterに担当してもらえるなら、NSSOLにお願いしたいです」と言われたことがあります。
太田:Kaggleでは、多種多様な課題が、データとセットで公開されています。さまざまな問題に触れることで、新しいドメインやタスクにチャレンジしていく足掛かりもなります。実際、生成モデルを構築するコンペで得た知見が案件で役に立ったことや、医療画像を扱うコンペに参加した経験が医療ドメインの共同研究の引き合いにつながったこともあります。
─「人材育成」の観点で役にも立つのでしょうか。
佐藤:人材育成という面では、私たちのグループでは社員を対象にデータ分析の研修を行うときに、コンペ形式のワークショップをとおして、NSSOLのデータ分析力の底上げを行っています。
─Kaggle GrandMaster、Masterが講師というのは心強いですね。NSSOLには制度的な面で支援はあるのでしょうか。
山岡:Kaggle特化の制度はありませんが、シス研には技術の習得に積極的に取り組むことを奨励する文化があるのが大きいですね。例えば、Google Colabの利用費用や書籍購入支援などはあります。他にもデータ分析グループでは「Kaggleなどの社外コンペにも積極的に挑戦して技術を得よう」という文化があります。
徳竹:私はシス研ではなく、事業部を経て現在DXICにいる人間ですが、NSSOL全体としてもKaggleをはじめとしたコンペや技術習得に挑戦する人を応援してくれる風土がありますね。
─挑戦を応援する良い文化ですね。
太田:データ分析に関わる者にとってKaggleは「自己研鑽の場」であり「交流の場」でもあり「遊びの場」でもあり、人それぞれの楽しみ方があります。敷居が高く感じる人は、まずは興味のあるデータを触ってみるところから始めてみると良いと思います。最近は社内でもKaggleに参加する人が増えてきていますが、もっと増えると良いですね。
─ありがとうございました。