好評につき再び開催! 非公開データを用いた自然言語処理コンペティション開催レポート
2020年2月16日〜17日、朝日新聞社主催「好評につき再び開催! 非公開データを用いた自然言語処理コンペティション」が開催されました。本イベントは、朝日新聞社提供の非公開データを用いた、自然言語処理系コンペティションです。15名の学生さんたちが参加し、それぞれのスキルを最大限に発揮していました。
課題内容
課題は、「朝日新聞社の記事データを用いて『その記事が多くの人に読まれたかどうか』を規定の基準で2値分類する」というものです。2019年9月に同社が開催したコンペティションと同様の課題でした。
モデル精度の評価基準にはF値が用いられました。評価に使用するテストデータはPublicとPrivateの二つに分けられています。開催中のリーダーボードではPublicデータを用いて算出したスコアが掲示され、最終評価はPrivateデータでのスコアで行われます。そのため、汎用性の高い優秀なモデルが評価されるようになっています。リーダーボード上の数値は100倍した%表記です。
朝日新聞社メディアラボの田森 秀明さんによると「社内でも一度検証したいと思っていた内容をコンペティション用にアレンジした」という本課題。朝日新聞社情報技術本部開発部およびメディアラボなど同社の技術的最前線で取り組まれているものに近い内容となっており、実データを用いた現場での開発を体験できるコンペティションでした。
メンター陣のご紹介
朝日新聞社メディアラボ、朝日新聞社情報技術本部開発部から、2日間で合計6名のメンターさんに入れ替わりで学生さんをサポートしていただきました。前回開催時に課題解説や総評をしていただいた田森さんにも再びご参加いただき、今回の総評では「前回との傾向の違い」などもお話いただきました。
また、朝日新聞社メディアラボの飯塚 荘太さんや朝日新聞社開発部の合間 優陽さんなど、入社3~4年目の若手メンターさんにご参加いただくことで、学生さんが入社後の実際の業務の内容や雰囲気を参考にしやすい環境となりました。
ワークの様子と結果
前回同様、メンター陣からベースライン程度の精度を出すことができるサンプルコードの提供がありました。それを元に早々にSubmitをする学生さんが数名いたものの、1日目の14:00時点ではSubmitしている学生さんは3名程度と、みなさん慎重に進めている様子でした。Submit回数に2日間で20回までの制限があったため、その後も手元での精度検証をしっかり行なった上でSubmitしている方が多かったようです。
15:00頃、それまでトップだった60台のスコアを大きく上回る72.37を出した学生さんが現れ、Submitが増えていきました。1日目終了時点で2/3程度の学生さんがSubmitしていましたが、1位に入れ替わりはなく、多くの学生さんが翌日のワークに向けた対策を考える中の解散となりました。
2日目は、ワーク開始から20分程度で、早稲田大学の森澤 竣さんが75.69という高スコアを出し1位を更新。前回開催時とは計算方法が異なるため厳密に比較はできませんが、前回の優勝スコアを上回るスコアがSubmitされ、メンター陣も大きく盛り上がりました。その後も70台のスコアが増え、2位、3位の方が1位森澤さんのスコアにじわじわと迫っていく展開に。森澤さんも自身のスコアを更新し、みなさんワーク終了間際まで次々とSubmitされていました。
最終的な順位は下記のようになりました。
※括弧内のスコアはPrivateデータでのスコアです。
1位 森澤 竣さん(74.29)
2位 尾原 颯さん(72.46)
3位 南 啓伸さん(72.06)
4位 橋本 祥さん(71.28)
5位 山田 康輔さん(70.51)
1位の森澤さんのスコアが頭ひとつ抜けた形になり、2位3位はその差が小数点以下と接戦でした。2日目冒頭から1位に変動はなかったものの、午後のワーク中に2位以下の入れ替わりが何度かみられました。3位の南さんはコンペティションへの参加が今回初めてとのことで、初参加で3位入賞を果たす結果に。
入賞者には朝日新聞社から賞金・賞品が贈呈されました。また、1位から3位に入賞した学生さんには課題のアプローチ手法について口頭発表をしていただきました。森澤さんはLightGBMを使用し、「自然言語処理は専門ではないが、自分なりの手法で挑戦した」とのことでした。
上位3名につきましては、入賞のポイント・反省点などを個別インタビューで詳しくお伺いしていますので、そちらも是非ご覧ください。
総評・懇親会
口頭発表終了後、メンター田森さんから2日間のワークを振り返っての総評をいただきました。
「全体的にレベルの高い学生さんが集まっており、自分たちの出番があまりなかったです。上位の方のソースコードをチェックしたのですが、提供したサンプルコードを使っている人がほとんどおらず、それぞれが独自のアルゴリズムを考えていたので、我々にとっても有意義な時間になりました。新聞社というと、取材などでバタバタしているイメージがあると思いますが、2日間一緒に過ごしたメンターがやっていたように、机に向かって黙々とコードを書いているような部署があることを知ってもらえると嬉しいです。」とのことでした。
最後に、参加学生さんとメンターさん全員で懇親会を開催しました。ワーク中は黙々と作業をしている場面が多かったみなさんですが、懇親会ではメンターさんや他の参加者の方に積極的に話を聞きにいっていらっしゃいました。メンターさんを中心に、大学での研究の話や朝日新聞社における具体的な業務の話で盛り上がっており、学生さんにとって貴重なお話が聞けたのではないかと思います。懇親会終了後も残ってお話しをされている学生さんがいらっしゃり、解散を名残惜しそうにしている姿が印象的でした。
まとめ
参加学生さんのレベルの高さを強く感じられた今回のコンペティション。メンターさんに質問に行くよりも、自らで試行錯誤し、課題を解決していく学生さんが多い印象でした。最終的には、昨年の開催時よりも高いスコアが出ていました。学生さんからは、「新聞社にデータ分析という印象がなかったが、今回のコンペティションで印象が変わった」というような声があり、企業イメージを大きく変えるコンペティションになったように感じます。また、「朝日新聞社のような日本の大企業がデータ分析に積極的な姿勢であると知ることができて嬉しい」といった意見もいただきました。
同社のコンペティションは来年度以降、再度の開催を計画中です。今回タイミングが合わずに参加できなかった方もぜひ楽しみにお待ちいただければと思います。
Peakersでは、今後も様々なハッカソン・MeetUp・インターンシップを開催予定です。ここでしか体験できない学びを手に入れたい学生の皆さん、ご参加をお待ちしております。