NLP Competition 〜 非公開データを用いた自然言語処理コンペティション 最優秀賞 鈴木広人さん 千葉大学 理学部 

2019年9月初旬、朝日新聞社メディアラボにて、「NLP Competition 〜 非公開データを用いた自然言語処理コンペティション」が行われた。

本イベントは個人戦の機械学習コンペティション。朝日新聞者のメディア変革を目指す「実験室」である朝日新聞社メディアラボと、Peakersの共同開催で行われた。課題は新聞社主催のイベントらしく記事データを用いたもので、「その記事が多くの人に読まれたかどうか」を規定の基準で2値分類した(課題・データの詳細は非公開)。メディアラボからは、メディアイノベーションチームより3名のメンターが参加。いずれも同ラボで見出し生成APIなどの開発を行う、自然言語処理のエキスパートだ。

参加者は普段から研究で自然言語処理に携わる学生から、機械学習の初心者まで様々。2日間で計10時間にわたるワークを行い、各自モデルの精度を磨き上げていった。今回はその中で最終スコアが特に高かった、上位3名の優秀者にインタビューを行った。

ワーク中は周りの学生と意見交換する時間、黙々と作業を続ける時間、休憩時間、と頭を切り替えながら効率的に作業していた鈴木さん。大学での専攻は統計学で、スパースモデリングという機械学習に近い分野を勉強している。ハッカソンの醍醐味は限られた時間で集中してワークできること、と話す鈴木さんだが、今回1位という結果を残すためにどんな手法を使ったのか。

今回の勝因を教えてください。

記事とか見出しとかよりも、投稿された日時や写真の有無など、自然言語処理とはあまり関係がないようなものに注目したのが良かったと思います。たとえば、社会人なら仕事をしている日中は記事を読まないだろうと予測しました。その予想が結果として的中した感じです。

難しかったのはどのような点ですか。

自然言語処理のコンペは初めてだったので、記事や見出しの日本語を機械学習モデルが理解できるようにどう処理するか、どう選択してコードを書いていくか、そこが難しかったですね。大事なのは、限られた時間の中でもできるだけ多くの方法を試行錯誤していくことです。これは効かなそうだなと思っても、想定外に良い結果が出ることもしばしばあります。何が効くかはやってみなければわからないので、とにかく手を動かして実際にコードに移してみるのが大事だなと実感しました。

もっとこうしたかったというところはありますか。

時間的に余裕があれば、チュートリアルで出していただいた朝日新聞社さんの自動見出し生成APIを使って、新たにデータを増やすことも試してみたかったです。新聞社にこんな高い技術があることや、AIの専門職で働いている方がいらっしゃるのは新鮮な驚きでした。

今後はどんな取り組みをしていきたいですか。

来年から金融系のデータサイエンティストとして社会に出ますが、どう世の中に役に立つのかという視点を持って技術に向き合っていきたいと思っています。技術は技術のためにあるのではなく、社会課題を解決するためにあるもの。何のための技術なのか、目的を常に考えながら勉強を続けていきたいと思います。

[contact-form-7 404 "Not Found"]