NLP Competition 〜 非公開データを用いた自然言語処理コンペティション- 優秀賞 佐藤瞭さん 東京大学 工学部

2019年9月初旬、朝日新聞社メディアラボにて、「NLP Competition 〜 非公開データを用いた自然言語処理コンペティション」が行われた。

本イベントは個人戦の機械学習コンペティション。朝日新聞者のメディア変革を目指す「実験室」である朝日新聞社メディアラボと、Peakersの共同開催で行われた。課題は新聞社主催のイベントらしく記事データを用いたもので、「その記事が多くの人に読まれたかどうか」を規定の基準で2値分類した(課題・データの詳細は非公開)。メディアラボからは、メディアイノベーションチームより3名のメンターが参加。いずれも同ラボで見出し生成APIなどの開発を行う、自然言語処理のエキスパートだ。

参加者は普段から研究で自然言語処理に携わる学生から、機械学習の初心者まで様々。2日間で計10時間にわたるワークを行い、各自モデルの精度を磨き上げていった。今回はその中で最終スコアが特に高かった、上位3名の優秀者にインタビューを行った。

これまでも定期的にハッカソンに参加し、常に上位の成績を収めてきた佐藤さん。今後は研究室で機械学習の応用研究について学ぶ予定だ。今回は自然言語処理に興味を持って参加し、見事3位という結果を残した。今回のハッカソンでの手応えはどのようなものだったのか。

今回のハッカソンに参加してみていかがでしたか。

今回データの成形からする必要がありましたが、リアルなデータの溜め方が見られたのは面白かったです。文字をどう処理したらいいのかわからなかったので後回しにして、数字など扱いやすそうなデータの処理からどんどん進めていきました。優先順位のつけ方は正しかったと思います。特徴量だけでもそれなりにスコアが出たので、最初にテーブルの生のデータをしっかり見るのは大事だなと思いました。

反省点はありますか。

あまり考えないまま、サンプルコードをそのまま使ってしまったことですね。ディープラーニングのモデルとそうでないモデルを作って最後にくっつけたのですが、訓練と予測のデータをきちんと分けていなかったのでうまく合わせることができませんでした。気づいたのが30分前、1時間前だったのでやり直せず、仕方ないので、あとはできることだけやろうと頭を切り替えました。こういう緊張感を楽しめるのもハッカソンならではですね。いろいろトラブルがあって重たい計算が思っていたより回せず、捨ててしまったデータがあったのも残念でした。自分のコードを書くスピードがもっと早かったら何とかなっていたのかもしれません。反省点を次に生かしたいです。

将来のビジョンを教えてください。

データを分析するのはとても楽しいので、大学院に進学をして勉強を続け、何かしらデータに携わる職業につきたいと思っています。データを集めるところから前処理、分析、レポーティングまで、すべてのフローを一人できるようなデータサイエンティストやビジネスアナリストになるのが目標です。

[contact-form-7 404 "Not Found"]