自然言語処理のエキスパートと学ぶ2days「NLP Competition 〜 非公開データを用いた自然言語処理コンペティション」開催レポート

2019年9月初旬、渋谷区にある朝日新聞社メディアラボ渋谷分室にて「NLP Competition 〜 非公開データを用いた自然言語処理コンペティション」が開催されました。本イベントは、Peakersと朝日新聞社メディアラボとの共催。テキストデータを用いた自然言語処理がメインの個人対抗コンペティションです。

大学で自然言語処理を研究している方はもちろん、自身の専攻分野の研究に機械学習を用いている方、普段は画像処理を行なっていて言語に挑戦してみたかったという方など、様々な経験を持つ10名の学生さんにご参加ただいた今回のイベント。スコアが停滞することも多かった中、最終的には大きな波乱もあった2日間の様子をレポートします。

1日目:課題発表

まずはメンターである朝日新聞社メディアラボ・田森さんより課題の発表が行われました。

今回の課題は「朝日新聞社の記事データを用いて『その記事が多くの人に読まれたかどうか』を規定の基準で2値分類する」という内容でした。(機密性の高いデータを用いたため、課題やデータの詳細は非公開となっています)モデルの精度はF値を評価基準としてランキング化され、Slack上でリアルタイムに確認することができます。

開催中のリーダーボードには提出された分析結果の一部(Publicデータ)のみを使用して算出したスコアが掲示されます。最終評価のスコアはPublicデータ以外の部分(Privateデータ)で算出されます。Kaggleに近い評価方法で、過学習しておらず汎用性の高い優秀なモデルが高く評価されるようになっています。

また、開発環境はGoogle Colaboratoryのみに限定されていました。

1日目:ハッカソン開始

課題発表とデータ配布後、学生の皆さんはすぐに作業に取り掛かります。

本イベントのメンターは先ほどの田森さんを含めた、朝日新聞社メディアラボ・メディアイノベーションチームの3名。実務でも自然言語処理を扱う経験豊富な研究チームのメンバーが参加者のサポートを行いました。また、今回はメンター陣より精度のベースラインとなるソースコードの提供があり、自然言語処理の経験があまりない方でも課題に取り組みやすい環境が整えられていました。

田森さん曰くベースラインの作成は「かなり大変だった」とのことですが、終了後には参加者の皆さんから「2日間で精度向上するところまでチャレンジできたのはベースラインのおかげ、なかったら提出もできていなかったかも」「ベースラインを一通り読むだけでもかなり勉強になった」という声が多数ありました。

今回上位の成績を収めた鈴木広大さん。実は機械学習の経験がほとんどなく、ワークが始まってすぐはとても不安そうにされていました。ですが、メンター・田森さんの丁寧なサポートのもと、その場でどんどん知識を吸収していきます。びっしりとメモを取りながら創意工夫できる点を考え、やりたいことを臆せずメンターに伝えることで、課題を進めていました。

最初のスコア更新は11時ごろ。そこから立て続けに6人が更新し、ちょうど昼食の時間となりました。

1日目:ランチ

各自作業が一段落した方からランチの時間です。

ランチタイムも手を休めることなく、黙々と分析を続ける皆さん。ワーク中は静かでも、お昼になるとあちこちで会話が始まることが多いのですが、今回は集中力を切らさず作業を続ける方がほとんどでした。

1日目:午後のワーク

会場となった朝日新聞社メディアラボ・渋谷分室には、秘密基地のような畳のスペースがあります。ワーク中、何名かの学生さんがこのスペースを利用していました。こじんまりとした空間に移動するだけでも、切れかけた集中力を取り戻すことができたり、頭が切り替わって新たな発想が浮かんだりすることがあるようです。

畳スペースの利用以外にも、席の移動やイヤホンで音楽を聴くなど、参加者それぞれのスタイルをとりながら分析を進めていきます。

お菓子休憩を挟みつつも手を休めることなく作業を続ける皆さん。ですが、午後のスコアは停滞気味です。そんな中、14時ごろにランキングのトップが塗り替えられました! ベースラインのスコアから大きく伸び、頭一つ抜ける形となりました。

その後も提出が続きましたが、スコアはなかなか伸びず、ランキングは膠着状態が続きます。その後も大きな更新がないまま18時半にワーク終了となりました。朝からPCに向かい続けていた皆さん。終了時にはさすがに疲れが見られました。

2日目:ワーク開始

2日目は準備できた方からすぐワークに取り掛かります。皆さんに1日目の感想を聞いて回ったところ、前日終了後、自宅で分析を進めた方が多数いらっしゃました。「明日つらくなるとわかっていても、効果がありそうな方法を思いついてしまうとやりたくて仕方がなくなってしまう」とのこと。6時間ワークした後、帰宅してからも課題に取り組む姿勢に、高スコアに対する熱意と分析への愛を感じます。その影響もあってか、2日目は開始とともにどんどんSubmitが行われました。しかし、ランキングトップのスコアはなかなか塗り替えられず、昼食の時間となりました。

2日目:ランチ

1日目と違い、昼食は和やかな雰囲気でした。1日目終了時に考えていた手法での結果を午前中に提出し終え、皆さんリフレッシュしたいタイミングだったようです。

メンター陣にも参加者と同じテーブルについてもらい一緒に食事をとります。ワーク中とは違い学生さんの研究内容やメディアラボでの業務についてなど、お互いに質問しあいながら自由な話題で交流されていました。

企業の研究者、しかも自然言語処理を専門に行っている方と直接お話できる機会は、他ではあまりありません。メンター陣にとってもより素に近いフラットな状態の学生さんを知ることができ、互いの理解につながったのではと思います。

2日目:午後〜ラストスパート

ランチ後の13時すぎ、なかなか潮目の変わらないランキングに突如「ML_bot」が登場。こちらはメンターの田口さんが「データの前処理から分類モデルの訓練、スコア予測、提出」までをなんと10分以内で行うという制限で作成したモデルの結果として投稿されました。

14時には、ランキング1位の入れ替わりが!

1日半以上塗り替えられなかったトップスコア・F値0.748を上回り、0.75台に突入しました。そこから16時ごろまで各自ベストスコアの更新が続き、0.71台だった方が0.739までスコアを上げる場面も。

ワークの終了時間が近づいてくると、ここまで作り上げてきたベストのモデルをベースに最終調整を行います。リアルタイムで更新されるスコアを見ながら、またチューニングを行って分析し、再度スコアを確認。その作業を何度も繰り返します。ワークが終了する16時半の直前まで、分析結果の投稿が続きました。中にはもう全力を尽くしたと、畳の部屋で休む学生さんもいらっしゃいました。

暫定1位の方と2位の方はどちらも0.75台と非常に接戦です。最終評価でのランキングは、どうなるのでしょうか。

2日目:結果発表&表彰式

ワーク終了後、メンター陣は最終スコア算出およびソースコードのチェックのため別室へ。その間朝日新聞社人事部の佐藤さんから、同社の事業説明が行われました。今回のハッカソンや事業説明を通じて朝日新聞社がITにも強く注力していることを知り、驚いたという学生さんも多くいらっしゃいました。

そして、お待ちかねの結果発表! 最終的な順位は以下の通りです。

1位 鈴木 広人 さん

2位 鈴木 広大 さん

3位 佐藤 暸  さん

4位 渡邉 拓実 さん

5位   小林 篤矢 さん

左から渡邉さん、鈴木広大さん、鈴木広人さん、佐藤さん、小林さん

暫定2位だった鈴木広人さんが1位となり、1位だった方は残念ながら6位となる波乱の結果に。また、初心者だった鈴木広大さんが3位入賞を果たしました!

こうした大きなどんでん返しや意外な結末があるのも、機械学習コンペティションの面白いところです。

入賞者の皆様にはそれぞれ賞金や賞品が進呈され、上位3名には後ほどインタビューも行われました。

1位に輝いた鈴木広人さんにはどのような手法で課題にアプローチしたのか口頭発表も行っていただきました。

鈴木さんの上位入賞のポイント・反省点などは個別インタビューでも詳しくお伺いしていますので、こちらも是非ご覧ください。

NLP Competition 〜 非公開データを用いた自然言語処理コンペティション 最優秀賞 鈴木広人さん 千葉大学 理学部 (リンク)

閉会式

最後に田森さんより、今回のハッカソンの総評をお話しして頂きました。

「今回のハッカソンは参加者のレベルが高く、リーダーボードの更新がとても激しかったと思います。メンターとして、こちらで手法を提案するというよりは、なるべく皆さんの考えに合わせたサポートを意識しました。ワーク終了後に皆さんのコードを見て、細かいところまで工夫して取り組まれていることがわかり、私たちとしても学びがありました。また、新聞社がこういった取り組みをしていると初めて知ったという声を多くいただきました。弊社の取り組みを知ってもらうこともハッカソン開催の目的の一つなので、知ってもらえただけでも嬉しいです。ぜひ、覚えていてほしいと思います。皆さんが一生懸命課題に取り組む姿勢を見て、私たちも多くのことを学ばせていただきました。2日間お疲れ様でした。」

懇親会

表彰終了後は、懇親会です。今回、ワーク中とにかく静かに、黙々と課題に取り組んでいた皆さん。ですが、懇親会は参加者同士はもちろん、メンター陣も交えながら話に花が咲いていました。どんな手法を試していたのか、時間があればどんなアプローチをしたかったか、ワークが終了した後も課題について熱く語る方がたくさんいらっしゃいました。会場の隅ではメンター田口さんから、ML_botのソースコードを見せてもらっている方も。「あんなにたくさんの処理をNotebookのひとつのセルの中に書けるのがすごすぎる」「さすがプロだな、と思いました」と、かなり驚きがあったようです。

この日は台風が近づいていたため、予定時間きっかりに終了となりました。終盤には連絡先を交換している方々もおり、2日間の取り組みを通して新たなコミュニティができていました。課題に黙々と取り組んだ2日間、皆さん大変お疲れだったと思いますが、懇親会はその疲れを感じさせないほど盛り上がっていました。学びはもちろんのこと、新たな出会いも得られるのはオフラインコンペティションだからこそ。初心者も玄人も大活躍の今回、多くのものを持ち帰っていただけていれば運営の私たちもとても嬉しいです。

皆さん2日間、本当にワークお疲れ様でした!

まとめ

「NLP Competition 〜 非公開データを用いた自然言語処理コンペティション」は無事に開催終了となりました。今回は参加された方のほとんどが自然言語処理の経験者でしたが、様々な分野からご参加いただいたことやベースラインの提供・他ではなかなか扱えない新聞社ならではのデータを用いたことなどもあり、多くの方にとって新鮮でスキルアップできるイベントになったと感じています。そんな中、当日までコーディング未経験の初心者の方が上位入賞されたのは素直にとても驚きました。初心者だからと諦めず、真摯に課題に向き合われたからこそだと思います。Peakersはそういった方々をもっともっと応援していきたいと改めて思いました。

2日間にわたる長丁場でしたが、集中力を切らすことなく最後まで黙々と課題に向き合った皆さん、大変お疲れ様でした。また、参加者同士やメンターさんを含めた交流の様子を拝見し、今後も充実した学習環境を提供するとともに、イベントを通じて新たなコミュニティを作る架け橋になることができたら、と感じました。

これからも同様のハッカソンは定期的に開催してまいります。今回納得のいくスコアが出せなかった方も、さらに実力を伸ばしたい方も、積極的に参加していただければと思います!

また、今回好成績を収めた上位3名の方には、個別インタビューを実施しています。

下記リンクよりぜひご覧ください。

1位 鈴木 広人 さん

2位 鈴木 広大 さん

3位 佐藤 暸 さん

それぞれの取り組みについての詳細や開発にあたって気をつけたことなど、この記事では取り上げていない内容について様々な感想をいただいています。

Peakersでは、今後も様々なハッカソン・MeetUp・インターンシップを開催予定です。ここでしか体験できない学びを手に入れたい学生の皆さん、ご参加をお待ちしております!

[contact-form-7 404 "Not Found"]