NSSOL若手研究員チームがAutoML世界大会入賞｜TO THE FUTURE

2021-03-24 DX データ活用

NSSOL若手研究員チームがAutoML世界大会入賞

左から、大堀優さん、石村大さん、廣田雅直さん、太田憲昭さん

当社のシステム研究開発センター（以下、シス研）の入社2、3年目（大会出場当時）のメンバーで結成されたチームが、Googleなどが主催する「AutoDL challenges」と呼ばれるAutoMLの大会群に参加し、音声認識分野「AutoSpeech2019」において、世界第3位を獲得しました。また、カナダ・バンクーバーで開かれた機械学習分野の国際会議「NeurIPS」のワークショップに招かれ、解法を発表しました。今回は本大会の概要や、入賞に至ったポイントを当時のチームメンバーが語っています。

機械学習の自動化で、データ利活用の課題を解決

―そもそもAutoMLとは、どういった技術なのでしょう。

大堀：Automated Machine Learningの略です。言葉どおり、機械学習のモデル設計や構築を自動化するための技術や手法です。

廣田：機械学習とは、“分類”や“予測”などのタスク処理を行うモデルを構築する技術です。モデル構築の作業では、専門家であるデータサイエンティストが、知識や経験を活かし、様々なデータ加工やアルゴリズムを組合せながら精度の良いモデルを構築します。

太田：AutoMLを利用すると、このモデル構築を自動で行うことができます。データ前処理加工やモデル学習フローなど専門家でないと難しい作業も、データに合わせた適切な処理を自動で選択し、実行してくれます。

大堀：このような特徴を持つため、非専門家であってもモデル構築の支援をすることができます。また、我々のようなデータサイエンティストにとっては、業務の効率化につながります。

大会で求められたのは、どんなデータであっても、
「素早く」「正確に」モデルを構築できる汎用力

―最近は機械学習の技術を競う大会が頻繁に開催されているそうですね。

石村：はい。大会の数が増えるだけでなく、扱われるデータの種類もここ数年で一気に増えたように感じています。2019年に開催されたAutoML世界大会では、画像、動画、音声、自然言語などのカテゴリに分かれていました。

―みなさんが出場された、音声認識分野「AutoSpeech2019」の概要を教えてください。

廣田：主催者が用意する5つの音声データセットに対して、それぞれ「話者/言語/感情/音楽ジャンル/方言（アクセント）」を判定するタスクが与えられました。例えば、「これらの音声データに含まれている音楽ジャンルを予測できるモデルを作成しなさい」といったものです。参加者は、それらのタスクを実行するプログラムを作成し、プログラムが構築したモデルの精度の高さを競います。

石村：音声認識の過程では、周囲の雑音を処理する必要があります。例えば映像作品内の登場人物の会話を分析するときは、周囲の物音やBGMなどの余分な音の中から、対象となる人の会話を特定する必要があります。

大堀：ところが、この大会で主催者が用意するデータセットは非公開です。音楽ジャンルを判定するタスクが与えられたデータはCD音源なのか、街中の雑踏で流れる音楽なのか、そういった詳細が分からない状態です。

太田：そのため、音声データがどういった状態で録音されていたものであっても、高精度のモデルを短時間に構築できるプログラムとする必要があります。

―徹底的に汎用性を求められる大会のようですね。

大堀：データと予測結果を見ながらモデルを磨き上げていくのではなく、あらゆる条件下で一定の成果を迅速に出せるモデルを生成できるかを競う部分が、この大会、そしてAutoMLという技術が持つ面白さや難しさだと思っています。

廣田：また、本大会は、提出したプログラムが構築するモデルの精度を競うものですが、モデル構築のための学習時間には制約があり、単純に時間をかけて学習量を増やすことはできません。また、マシンのメモリにも制約があったため、与えられた条件で取れる手段は何かを考える必要がありました。

石村：私たちの所属するシステム研究開発センターは、最先端技術をビジネスで活用するための研究開発を進めており、実案件への参画にも積極的に取り組みます。実際の現場では、コストやシステムの条件から発生した制約のもと、求められる成果を出す方法を考える機会も数多くあります。その経験は生きたかもしれませんね。

―本大会で皆さんは3位入賞を果たしました。その戦略を教えてください。

太田：大きな方針としては、具体的には音声データを画像に変換し、その画像を分類するモデルを構築するプログラムを作成しました。NSSOLは画像解析の技術を生かした案件実績を豊富に持っており、知見を多く蓄えています。そうした得意領域に持ち込むことができました。

大堀：最終的に勝負の結果に大きく影響した戦略は、優先順位をスピードに置いたことだと考えています。本大会では、同じ精度のモデルが生成された場合、その生成に必要な時間も審査基準となっていました。40分かけて99％の精度を実現するのではなく、1分で90％の精度を実現する作戦です。

廣田：過去の研究の蓄積を基に、スピードが落ちそうな処理は省き、逆に、確実にスコアが出そうな処理は優先的に入れるなど、戦略に応じた試行錯誤を重ねました。

入賞そのものよりも、技術者としての成長につながったことが重要だった。

―改めて、本大会を振り返った感想をお聞かせください。

大堀：入賞したことよりも、大会に参加したことによる技術者としての成長につながる学びが多かったことが自身にとって重要だと考えています。本大会では、プロジェクトマネージャーのような役割を担当しており、このメンバーがそれぞれの得意分野を生かしながら成果を出すにはどうすればいいかを考える機会となりました。そのため、技術的な学びはもちろんですが、チームでの開発フローやスキームに関する学びにもつながったと考えています。

廣田：また、そもそも音声AutoMLに関するプログラムは公にされているものが当時は比較的少なかったため、他の人が書いたコードを見ることはとても勉強になりました。どこに力点を置くのか、各チームで戦略が異なりますから、それに伴いプログラムも異なります。それぞれの戦略に準じたコードを見ることができたのは貴重な経験でした。