オンライン開催!日立製作所のトップAI研究者と学ぶコンペティション-地下道歩行者量予測- 優秀賞 遠藤丈さん 電気通信大学大学院 情報学専攻

9月26日、日立製作所×Peakersのコンペティションがオンライン上にて行われた。昨年大好評だったオフラインコンペティションから課題も新たに、グレードアップしての開催となった。オンライン開催のためこれまで参加が難しかった遠方の学生も参加することが可能となり、全国各地のハイレベルな参加者たちと競い合うことができた。さらに日立製作所のトップAI研究者たちに直接アドバイスを受けることで、スキルの大きな向上を目指すことができるイベントとなった。

今回のコンペティションの課題は、北海道の地下道における歩行者数のテーブルデータから特定地点の歩行者数を予測するというもの。5つの観測地点中からひとつを目的変数とし、その地点の「30分後」の歩行者数を予測する。

大学院では情報学を学んでいる遠藤さん。将来は「必要な情報を簡単に手に入れて、人生をより豊かにできるようなシステムを作りたい」という。この夢は友人からのアドバイスが基になっているというから驚きだ。

工夫した点について、データコンペでモデルを毎回書くのは大変なため、普段からコードを使える形にまとめておき、当日はデータ整形をすれば、学習できるようにしていると教えてくれた。その他の工夫点や反省点についても詳しくインタビューした。

大学院での研究内容について

大学院では情報学を専攻しています。GANという画像を生成する深層学習モデルを使って画像分類を行っています。AI企業で長期インターンもしながら、日々深層学習の勉強をしています。

将来は、データサイエンスを使って人の価値観や興味を広げることができるレコメンドシステムを作ってみたいと思います。実は、プログラミングを始めた学部2年生の頃、これからどうスキルアップしようか悩んだときに、友人から非常に適切なアドバイスをもらったんですね。このときの経験から、必要な情報を簡単に手に入れて人生をより豊かにできるようなシステムを作りたいという夢を持つようになりました。

ハッカソンに参加した感想

1日完結のハッカソンは今回ははじめてですが、KaggleやSIGNATEには参加経験があります。今回参加してみようと思ったのは、日立製作所のデータサイエンティストの方がどんな仕事をしているのか知りたかったのと、コンペで競い合うことで実力をつけたいと思ったからです。

2位という結果については、まったく予想していませんでした。実は、データすらあまりよく理解していなくて。ただ、データ分析のセオリー通りに進めたらうまくいったというのが正直なところです。

工夫した点について

前処理に関しては、特にこだわりはありませんでした。欠損値はとりあえず平均で埋めておけばいいと思いましたし、データ整形も直感的にやっただけです。工夫しようと思えばいくらでもできたと思いますが、限られた時間内に前処理に時間をかけすぎるのは得策ではありません。そこで、数値がゼロだったり欠損値が多いものは処理しないと決めて、とりあえずきれいに整形し、学習モデルに流して重要度を自分の目で確認して、特徴量の取捨選択を行いました。そこが、好結果につながったと思います。

特徴量生成では、時系列データなので移動平均やラグ特徴量を使うなど、少し工夫しました。モデルの選定に関しても、データ分析では勾配ブースティングがかなり優秀だと知られているので、そのなかでもLightGBM・XGBoost・CatBoostをとりあえず全て試して、結果を見ながら調整していったという感じです。

実装でエラーが入って少し慌てはしましたが、こうした進め方には迷いはありませんでした。どのコンペでも行うような処理をきちんと行う、それが僕のセオリーです。

今回はあまり難しいことをしないほうが、順調に進んだのではないでしょうか。ただ、時系列データを考慮できるリカレントニューラルネットワーク(RNN)を試している方もいて感心しました。うまく行けば自分よりもいいスコアが出たのではないかと思います。

データコンペでモデルを毎回書くのは大変なので、僕はコードを使える形にまとめておいて、当日はデータ整形するだけで流せば学習できるようにしています。その点は他の学生よりも有利だったと感じます。

山口さんがずっと1位を走っていたので、とにかくついていこうとがんばりました。解法を見る限りはほぼ同じことをしていましたし、特徴量生成も僕のほうがやっていたのですが……モデルのチューニングで差がついたのでしょうか。

反省点について

反省点は、モデルのハイパーパラメータのチューニングを行わなかったことです。すでに使っていたものを使用したので調整すべきでした。あとは、細かい作業をもっと丁寧に行えればよかったですね。データも重要な特徴量は見たものの全部は確認できませんでしたし、今回トレインデータよりもテストデータのほうが多かったので、2つの分布をきちんと見ながら作業を進められたらよかったなと思います。

今回の結果で自分にもそれなりに実力がついてきているんだとわかり、とても嬉しいです。勉強のモチベーションがぐっと上がりました。購買履歴など、人の行動を扱うデータのコンペがあったら、また出てみたいですね。

メンター、企業について

とてもよいお話が聞けました。どの、メンターさんもコンペに関することだけでなく、実際の仕事についても具体的に話してくださって、自分の将来に向けて非常に参考になりました。日立製作所では研究が細分化されていると知り、いろいろな働き方ができて面白そうだなと感じました。

[contact-form-7 404 "Not Found"]