朝日新聞社・メディア研究開発センター主催 非公開データを用いた自然言語処理コンペティション 2022年10月 最優秀賞 土田 寛さん 慶應義塾大学 経済学部経済学科3年

土田 寛さん 慶應義塾大学 経済学部経済学科3年

例年好評の『朝日新聞社・メディア研究開発センター主催、非公開データを用いた自然言語処理コンペティション』が2022年10月15日-16日、今年もオンライン開催された。

本イベントは、朝日新聞社の非公開データが提供され、構築したモデルの予測精度をスコアで競うコンペティション形式だ。

自然言語処理の専門知識がない学生も、機械学習モデルの開発経験があれば参加できる環境が整えられ、手厚いメンタリングのもと自然言語処理を学べるプログラムとして開催された。

毎回非公開データを用いて行われる本コンペティションだが、今年は記事データに加えて画像データも提供され、マルチモーダルタスクとしてもチャレンジできる課題にブラッシュアップ。参加者は貴重なクローズドデータを用いて、与えられたタスクに対応する機械学習モデルを構築しスコアを競い合った。

主催の朝日新聞社は、全国紙の発行を中心に、イベントやスポーツなどの興行事業・広告メディア事業などを幅広く手がける総合メディア企業だ。
近年では「朝日新聞デジタル」を主軸に、幅広くデジタル戦略にも注力している。

本イベントの中心を担った朝日新聞社メディア研究開発センターは、2021年4月に発足。

新聞社ならではの豊富なテキストや写真、音声などの資源を活用し、社内外の問題解決を目指すとともに、自然言語処理や画像処理をはじめとした先端技術の研究・開発を進めている。

当日のメンタリングは、スタンフォード大学アジア太平洋研究所客員研究員を務めた田森氏を筆頭に、メディア研究開発センターに所属する現役のデータサイエンティストたちが参加。ワーク中は彼らがメンターとして常駐し、不明点や質問があった際は、いつでも聞ける環境が整えられた。

学生たちは、最先端の研究領域で活躍するメンターから個別の面談機会を通じて技術的なフィードバックを受けながら、膨大なデータを活用した課題解決の方法に直接触れ、自身の成長を実感する2日間となった。

最優秀賞受賞者
土田 寛さん 慶應義塾大学 経済学部経済学科3年

―普段の活動内容について、お聞かせください

大学では経済学を専攻していますが、研究会には所属せず機械学習関連のインターンの活動に重点を置いています。自然言語処理に関してはインターンの活動を通じて取り組んだ経験から、BERTなどについて一定以上の知識をもっていました。とくに2022年の夏頃から自然言語処理の力がついてきた実感が自分自身でも持てるようになりました。

―参加してみていかがでしたか?

Zoomに入っていると、直接顔を合わせてはいませんが、互いの存在が感じられます。各プレイヤーのスコアを表示したリーダーボードも気にしつつ、オンラインながらも、すぐそこに他の参加者がいるように感じながら取り組むことができる2日間でした。

インターンの活動ではモデルが結果を出すまでの推論速度を気にしているので、どうしてもシングルモデルで、なるべく精度の高いものを作ることが目標になってきます。今回のコンペティションでは学習や推論の時間がどれだけかかってもいいので、なるべく精度を高くすることを目標に、初めてアンサンブルができました。

―好成績でしたがどのような工夫をしましたか?

最初からベースラインでTF-IDFもついたモデルが配られましたが、僕の場合はそれをあえて手放し、RoBERTaロベルタ(編集注:BERTをベースにさらに高い精度が出るよう改良されたモデル)1本に絞ったことが大きかったと思います。期間が2日間と短いなか学習データは多く、推論はどうしても1回1回の学習に時間がかかるので、1日目に学習を回したきりで、2日目は回せておらず、アンサンブルに取り組んでいました。いま振り返ると特徴量を調整するなどして、貴重な1回の学習時間をうまく使えたら、さらにスコアを伸ばせたかもしれません。

―普段のインターンの活動から好成績につながった部分はありますか?

普段のインターンの活動が成績につながったところは大きいと感じています。インターンでは社員の方に質問するよりも、自分で調べて実装し、成果を報告するようなかたちが中心です。

僕が「TF-IDFを捨ててRoBERTaで挑む」という手法を選んだのは、インターンの活動を通じて、(RoBERTaのベースとなった)BERTの強さを理解していたからです。過学習への対策としてはMulti Sample Dropoutを用いました。Multi Sample Dropoutは実装が簡単ながらも過学習への対策ができます。これもインターンの活動を通じて知見を持っていたので、自分の強みになったと思います。

―主催企業の印象について率直な感想をお聞かせください。

率直にお伝えすると「朝日新聞社もRoBERTaやCLIPなどの様々な独自モデルを開発・APIとして提供しているのだな」と感じました。参加したことで、普段はなかなか知ることができない朝日新聞社の専門性に触れることができてよかったと思っています。

―メンターさんの印象について率直な感想をお聞かせください。

インターンの活動を通じて一定以上の知識は持っているとはいえ、体系的な知識不足から実装面においては不安がありました。そうしたなか「困ったときに相談できるメンターさん」という存在は心強く、安心しながら2日間取り組むことができました。また、画像データの扱いには慣れていなかったのですが、仮に困ってもメンターの方に聞ける環境でよかったです。

―メンターさんの役に立ったアドバイスについて教えてください。

今回は学習用データが10万件程ありました。それらをすべて使って実験すると時間がかかります。そこでどう手軽に実験できる環境を作るかがポイントになってきます。

僕はランダムに抽出する方法を選びましたが、学校で体系的に学んだわけではなく独学に近いかたちで専門性を磨いてきたので、自分の知識に自信がない側面もありました。

本当に自分の選んだ方法で良いのだろうかという不安もありました。この不安を解消するために個別にフィードバックいただける時間を活用し、メンターの方に手法の正しさについて相談しました。メンターの方からその手法で良いと背中を押していただけたので、安心して進めることができました。

―今後、どのようなチャレンジをしていきたいですか?

直近の目標としては、Kaggleでメダルを取ることです。将来の方向性としては大学院への進学を考えており、研究内容はこれから絞り込んでいこうと思っています。僕は機械学習の技術をシンプルに面白いと感じているので、大学院生活でさらに自分の専門性を磨いたあとは、機械学習の技術を活かせる仕事で新たなチャレンジができればと思っています。

―それでは最後に、コンペティションへの参加を検討している学生の方へメッセージをお願いします

このコンペティションは、あらかじめ知織を持っていなくても、ベースラインの提供を受けられるので、取り組みやすい環境だと思います。今回はTF-IDFのベースラインよりも、BERT(RoBERTa)を使いましたが、その使い方についてもメンターの方からSlackの「質問と回答」チャネルで全員に案内がありました。

何より、わからないことはメンターの方に聞くことができます。応募前に壁を感じるかもしれませんが、参加してみると何とかなることもあります。サポートもあるので、心配しているよりも困難なく進められるのではないかと思います。

[contact-form-7 404 "Not Found"]