データ分析×消費! マネーフォワード主催オフラインコンペハッカソン- 優秀賞 鈴木広人さん 千葉大学 理学部
2019年9月21日〜22日、東京都港区の株式会社マネーフォワード本社にて、「データ分析×消費! マネーフォワード主催・オフラインコンペハッカソン」が行われた。
本イベントは個人戦の機械学習コンペティション。個人向け家計簿アプリや法人向けバックオフィスのクラウドサービスで著名なマネーフォワード社が、Peakersとの共同で初主催した学生向けハッカソンである。参加者は同社提供のデータを用いて多クラス分類の課題に取り組んだ。
マネーフォワード社からは、同社の研究機関「Money Forward Lab」の所長である北岸 郁雄氏、同Labの技術顧問を務める自然言語処理の第一人者・関根 聡氏やアカウントアグリケーション本部の本部長で今回のデータ背景を詳しく知る内波 生一氏など、様々なバックグラウンドを持つ方が参加者のサポートにあたった。
数値データの取り扱いに加え、自然言語処理の知識も求められた今回のハッカソン。慣れない言語処理に苦戦した参加者が多く、長時間ランキングが停滞する場面もあった。そんな難易度の高いハッカソンを制し、見事上位を獲得した2名の学生にインタビューを実施した。
本ハッカソンで見事優勝を果たしたのが、千葉大学理学部の鈴木広人さん。本格的にデータ分析を始めたのは2018年の秋ごろと1年ほどの経験ながら、オフライン・オンライン問わず多数のハッカソンでの参加・受賞経験を持つ。Peakersのハッカソンも常連で数々のイベントにおいて上位に入賞してきた鈴木さんだが、今回は初日から2位以下を大きく突き離して1位となり、ほぼそのままのスコアで優勝となった。好成績につながった理由やさらに試したかった改善案など、本ハッカソンでの取り組みについてお話を伺った。
これまでのご経歴を教えてください。
理学部の数学・情報数理学科で統計学を専攻しています。卒業後は、金融系のデータサイエンティストになる予定です。今回のような自然言語処理は、社会人になってから実務にも大いに役立つのではないかと思います。
1日目からぶっちぎりの精度だったそうですね。
今回ラッキーだったのは、これまでKaggleやSIGNATEを経験する中で蓄積しておいたコードをそのまま使えたことです。毎回ハッカソンなどに参加した後は使えたコードを整理しておくんですが、偶然にも3回自然言語処理系のハッカソンが続いたので、コードが溜まりに溜まっていて(笑)。それを使ったら1日目の15:00頃には精度が出ました。なので、今回は一からコードを書くことはほぼありませんでした。
15:00以降は何をしていたんですか?
1日目の夜は、書き散らかしたコードを整理し直していました。Linear SVCは比較的シンプルなモデルで過学習も起きにくいし、もうこのまま行けるかなと。2日目は精度をもっと上げられないかと他の方の手法も見て試したりしたんですが,結局それ以上上げることはできませんでした。
余裕でしたね。
自分で考えていてもいい方法を思いつかなかったので、他の人のところへ行ってヒントを探してみたり(笑)。でも、最後まで精度は上がりませんでした。
どうすれば上げられたと思いますか?
懇親会でメンターの方に、「テキストを含むカラムは漢字とか英字が散在しているので、いったんローマ字にしてそれでn-gramを取ったら面白いんじゃないかな」とおっしゃっていて、それならいけたかもと思います。
そのあたりがやり残したことですか?
そうですね。2位の方はテキストを詳しく見ていたので、自分もそれをやってノイズを除去できていれば、もっと精度が出たかもしれません。
ハイスコアにつながった点はどこですか?
やり方は、2位の方と同じでした。差がついたとすれば、他の方があまり分析に使用していなかったあるカラムの処理がうまくいったからだと思います。これをやっていたのは自分だけだったみたいです。勉強して知っていたわけではなくて、「これ、面白そうだな」と思って試してみたら結果が出ました。
今回は、どのような経験になりましたか?
やってみないとわからないことが多いので、また一つ経験値を高められたかなと思います。「形態素解析がうまくいかないときはn-gramを考える」とか。n-gram自体は昔からあるんですが、みな意外と気づかなかったようです。古いから効かないだろうと思わないで、とにかくどんどんやってみることが大事だなと思います。
マネーフォワードさんに対するイメージはいかがでしたか?
機械学習に積極的に取り組まれていて、メンターさんのレベルも高くて。会社のことをよく知るきっかけになりました。
将来はどんな仕事をしたいですか?
来年から金融系のデータサイエンティストとして社会に出ます。実務では、有価証券報告書などから勘定分析を言語処理でやるということが盛んに行われているらしく、そういうところから株価の予測のような研究している方もいると聞きました。大きな可能性を感じているので、今後も機械学習を勉強していきたいです。