Peakers Hitachi Cup – 道路交通量予測コンペハッカソン 優秀賞 渥美 和大さん 静岡大学 情報学部

2019年9月25日、株式会社日立製作所とPeakersの共同開催でPeakers Hitachi Cup – 道路交通量予測ハッカソン- が行われた。本イベントは、コンペティション形式の個人戦ハッカソンだ。課題はアメリカの道路交通量のオープンデータを用いて、モデルを作成し、交通量予測を行うというもの。日立製作所からは3名のメンターが参加し、学生からの疑問や質問に対してアドバイスする形でサポートした。

本課題はデータのボリュームがかなり大きく、前処理や取り扱いの段階で苦戦した方も多かった。しかし、最終的には半数以上の参加者がMAE(mean absolute error)20~30までの間に集中(交通量の全体平均は187程度)。第一位はPeakersでの事前検証でも超えられなかったMAE20.0の壁を突破し、19.16を記録するハイレベルな争いとなった。今回は参加者の中でも特にスコアが高かった、上位3名の優秀者にインタビューを行った。

機械学習を学び始めたのはMicrosoftが開発したAI女子高生りんなちゃんの仕組みが知りたかったから、というユニークなきっかけを持つ渥美さん。普段は大学で自然言語処理を学んでいる。惜しくも2位という成績に終わってしまい、悔しさを滲ませていた渥美さんだが、初参加のオフラインコンペではどのような手法で課題に挑んだのか。

これまでのご経歴を教えてください。

機械学習に触れたきっかけは、MicrosoftのAIりんなちゃんの仕組みを知りたくて勉強を始めたことです。botではなく、明らかにこちらの意図を察知して反応しているので、その中身を知りたくてこの道に入っていきました。勉強し始めたのは2年の後期ぐらいです。学習歴は2年くらいでしょうか。

今回のハッカソンで工夫した点を教えてください。

データ量が多いという声もありましたが、僕はサンプリングしてしまうのであまり気になりませんでした。今回は特徴量エンジニアリングをがんばりましたね。時系列データなのでサインコサインをかけてみたり、あとはカテゴリ変数が多かったので、カテゴリ変数を2個かけて相関をみたりしていました。過去のコンペの経験から、効果があるなと感じた知識を使って取り組みました。

逆に反省点は、空いた時間をもっと有効に使うべきだったというところです。時間がない、と思いながらもどうすることもできませんでした。オフラインのコンペだと最初に方針を決めた人が勝つという印象で、なかなか難しかったですね。はじめのうちは最初に作ったコードを使って調整する方法をとっていたのですが、結果はあまり良くなく、時間を取られてしまいました。データ数は確かに多かったので、もっと少なくしてサンプリングして特徴量エンジニアリングをやってから、効く特徴量・効かない特徴量を決めて、そのあと大きいデータをやればよかったなとは思います。他の参加者にハイパーパラメータチューニングをしている方がいてすごいなと思いました。1日なのに「ようやるな」と(笑)。その選択肢は自分の頭の中にはなかったので、よくその決断ができたなと刺激になりました。

日立制作所に対するイメージに変化はありましたか?

ジャパニーズトラディショナルカンパニーというイメージだったのですが、割とカジュアルな雰囲気で、かつ機械学習を学んでいる学生を受け入れる環境がきちんと整っていることがわかりました。

データサイエンス系は何をやるにしても、データがなくては始まらないので、日立さんのように大きな企業は、データがたくさんあるのが強みだと思います。さらに、それを実サービスに活かせる会社というところも魅力的です。自分がやったことが実際のサービスとして世に出るのは面白いなと思います。

今後のビジョンを教えてください

今後は専攻している自然言語処理をテーマにしたハッカソンに参加してみたいです。自動評価じゃなくて主観評価になるので評価基準が難しいですが、りんなちゃんみたいに、実際に目に見えるものを作れるコンペも面白いかなと思います。

それから、テーブルデータを扱う機械学習が苦手なので、もう少し勉強していきたいです。卒業後は大学院に進学しますが、いずれはIT系の力で社会課題を解決するような仕事ができたらいいですね。特定の分野に縛られないようなデータサイエンティストになりたいです。

[contact-form-7 404 "Not Found"]