クローズドデータを用いた自然言語処理に挑戦 NLP Competition for Students 2020 Autumn 最優秀賞 田代真生さん 東京工業大学 工学院情報通信系情報通信コース

2020年11月中旬、「クローズドデータを用いた自然言語処理に挑戦 NLP Competition for Students -2020 Autumn-」がオンライン上にて開催された。毎年大好評を受けている同イベントは、朝日新聞社提供の非公開データを用いた自然言語処理系コンペティションだ。課題は自然言語処理とビジネスの現場で、実際に取り組まれている内容に近いものが設定された。レベルの高い課題にオンライン開催であることも重なり、全国から実力者たちが集いしのぎを削りあった。

昨年同様、朝日新聞社からは、自然言語処理分野で国内外において多数の文献発表や講演を行い、研究資源の公開も行なっている「朝日新聞社メディアラボ」人工知能研究チームのメンバーがメンターとして参加。また本年より、同社の研究開発グループ「ICTRAD」でプロトタイプの開発に従事するエンジニアの方も参加し、サポート体制が一層強化された。単にスコアを競うのではなく、ハイレベルなメンターからアドバイスを受けることにより、スキルアップしながら課題解決のプロセスについて学ぶことができる。

今回優秀賞を受賞した田代さんは、大学院で事前学習言語モデルの研究をしている。将来は自然言語処理に関わる仕事に就くことが目標だ。今回の勝因は、簡単なモデルから実装したこと。シンプルなモデルにすることで、効率よく進めることができたという。また、事前に過去の優秀者インタビュー記事を読み、上位者の取り組み方をリサーチしていたことも役に立った。その他、ハッカソンに参加したきっかけや、当日の反省点についてもインタビューした。

大学院では、どんな研究をされていますか?

現在はBERTと呼ばれる、事前学習言語モデルの研究をしています。将来的にも自然言語処理に関わる仕事に就きたいと思っています。大学時代にインターン先で自然言語処理の可能性を知り、興味を持つようになりました。自然言語処理の面白さは、まだまだ研究途上で未知の可能性を秘めているところです。

コンペティションに参加されたご感想は?

インターンに応募するにあたり実績が必要だと思ったので、KaggleやSIGNATEに参加し始めたのがきっかけで、コンペやハッカソンに出るようになりました。やってみたら競技性が高くて面白かったので、いまでも継続して参加しています。

今回参加してみようと思ったのは、自然言語処理系のコンペティションで新聞社が実際に持っている貴重なデータを扱えるという点と、2日間で気軽に参加できるというという点に興味を持ったからです。短期間のイベントは、集中力とモチベーションを維持しやすく、気軽に参加できるのがメリットですね。いかに素早く実装までもっていけるかがポイントになると思うのですが、そういう点では、これまでのコンペ経験が活きたと思います。

大学で自然言語処理関係の研究をしているので、結果を出さなくてはいけないなとは思っていましたが、ここまで良い成果が出せるとは思っていませんでした。勝因としては、事前に過去のインタビュー記事を読んで、上位者の取り組み方をリサーチしていたことが役に立ちました。

他にも、簡単なモデルから実装するようにしたこともよかったと思います。複雑なモデルを考えていた方もいたようですが、僕はシンプルなモデルでやることで、時間内に効率よく進めることができました。具体的にはいま流行していて自分の専門でもあるBERTを利用する前に、まずWord2Vecという昔からある手法を試しました。これが結果的によかったと思います。

コンペ終了後に発表された他の方の解法から学べる部分もありました。2位の方などが使っていたLightGBMは、僕はこれまでのコンペでよい結果を出せていないので、すごいなと思いました。

反省点は、 2DAYなので、ただ性能を達成するだけで終わってしまったこと。何が良くて何が悪かったのか、新たな発見・知見まで得られたら、さらに学びが深くなったのではないかと思います。

メンターさんや、主催の朝日新聞株式会社にはどのような印象を持たれましたか。

メンターさんは、どんな質問をしても的確で有用なアドバイスをくださって、技術力の高さを感じました。そのような社員の方が働いている朝日新聞社はきっとAIへの取り組みも進んでいるんだろうなと思います。

田代さんとして、これからチャレンジしたいことはありますか。

今回のハッカソンは、僕が知らない解法を知ることができたり、いろいろなバックグラウンドの学生と交流できて、とてもよい勉強になりました。僕のようにNLPが得意な学生だけでなく、NLPはよく知らないけれどテーブルデータが得意な学生がよい成績を残しているのも面白かったです。短期間のハッカソンはまだまだ数が少ないので、今後も機会を見つけて積極的に参加していきたいです。賞金があると、さらに嬉しいですね。

[contact-form-7 404 "Not Found"]