地下道を安心して利用するためのモデル構築にチャレンジ。日立製作所主催 地下道利用者数予測オンラインコンペティション 開催レポート
2020年9月26日と2020年10月24日の2度にわたって、株式会社日立製作所主催のコンペティションが開催された。昨年開催時も非常に高い満足度を誇った同社のイベント。本年はオンライン形式での開催となり、全国各地から2日程合計50名以上の学生さんが参加されました。
当日は同社研究開発グループのAI研究者として働く方々が学生へのメンタリングを実施。レベルの高いアドバイスを受けながら大きく成長することのできるイベントとなっていました。初心者から上級者まで様々な参加者が課題に挑み、しのぎを削ったイベントの様子を総括レポートとしてお届けします。
コンペティション課題
課題は、札幌市にある駅前地下歩道での歩行者数予測でした。札幌市駅前地下歩道は、観光・通勤・通学などに利用される道路としての側面と、多数の商業ビルと接続しイベントスペースなども保有する商業の要地としての側面をもっています。毎日数万人を超える多数の利用者がおり、札幌市の通勤通学・観光において重要な役割を担っている場所です。
コンペティションではこの地下歩道について、札幌市から依頼があったとして仮想プロジェクトを設定。新型コロナウイルス感染拡大防止のため、密を避けながら地下歩道の利用ができるよう混雑度予測を配信することが目的となっていました。参加者はこのプロジェクトの一環としてプロトタイピングを依頼されたと仮定し、地下歩道の利用者数を予測するモデルを構築しました。
地下歩道には5箇所の人感センサーが設置されており、その通過数はオープンデータとして札幌市より公開されています。タスクではこのセンサーのうち一つの30分後の値が目的変数となりました。ほか、鉄道・高速道路・路面電車の運行情報や、気象情報も説明変数として提供されました。
また、評価はPeakersのリーダーボードシステムを用いて行われ、予測結果を提出すると自動でスコアが算出されました。評価指標はRMSEを使用しました。
当日の様子 -ワーク終了まで-
本イベントは日立製作所のR&D組織である、研究開発グループの方々が中心となって実施されました。各日程6名のAI研究者の方がメンターとして参加し、参加者は躓いたところや疑問点があればビデオ通話上でいつでも質問することができました。特に初心者の方からは、個別にメンターさんからのアドバイスをもらうことができ、成長につながったという声が挙がっていました。
本タスクのデータは、取得元の記載規則により特殊な値となっている部分があり、複雑な前処理が必要なものでした。さらに実質5時間強という非常に限られた時間であったため、参加者の方の多くは前処理とその時間配分で苦戦されたようです。また、どちらの回もコンペティション未経験の方からKaggle等のオンラインコンペティションで多くの経験を積んでいる方まで、様々なスキルの方が参加されていました。
この状況を受け、1回目のメンターである刑部 好弘さんは「前処理に時間を取られてしまい、モデルそのもののトライアンドエラーができずに終了してしまった方が多かったように感じました。コンペティションでは時間が限られているので、ある程度のところで見切りをつけて処理できないカラムは除外し、モデルのチューニングに時間を使うのも手だったと思います」とおっしゃっていました。
当日の様子 -結果発表-
ワーク時間はあっという間に終了し、結果発表の時間です。
それぞれの日程での上位入賞者は下記の通りでした。
9月26日回
第一位 山口将平さん RMSE 205.0105799
第二位 遠藤丈さん RMSE 206.0194721
第三位 橋本祥さん RMSE 207.6426634
10月24日回
第一位 雪江亮太さん RMSE 207.7644846
第二位 伊藤大輝さん RMSE 213.3958797
第三位 池田 純さん RMSE 216.8363622
各回の第一位・第二位の方には個別インタビューを実施しています。
下記からぜひご覧ください。
結果発表後は、上位入賞者2名による口頭発表が行われました。
どちらの回も共通していたのは、上位の方は前処理・特徴量エンジニアリング・パラメータチューニングなど多数の選択肢がある中で、注力する優先順位を意識していた点です。上位陣は、前処理に時間をあまりかけず特徴量エンジニアリングに注力した方、複数モデルのアンサンブルとチューニングに注力した方、前処理を丁寧に行った方、新型コロナウイルス感染拡大という課題の特性に注目してクロスバリデーションの方法を工夫した方など、それぞれの注力ポイントは様々でした。ただ、どなたも「今回はどこに力を入れるか」を意識した上で取り組まれていました。
また、過去に自身で作成したコードを流用している方も多く、初回の提出スピードも速い傾向にありました。やはり短い時間でのワークだったため、経験の差が出やすかったのではないでしょうか。
初心者の方も参加されましたが、ほとんどの方がスコアの提出まで至っており、どちらの回も10位以内はRMSEの差40以内に集中するなど、非常にレベルの高いコンペティションとなりました(目的変数の平均値は1500程度)。
当日の様子 -課題解説・コミュニケーションタイム-
閉会式では、各回1名のメンターさんによる課題解説が行われました。
9月回は、研究開発グループ 人工知能イノベーションセンタ 知能情報研究部に所属する刑部 好弘さんが解説をご担当。今回の課題をご自身の研究テーマである地理情報空間と絡め、現場での人流解析はどのようなものか、地理情報空間を分析するとはどういったことか等について、論文等も引用しながら興味深い解説をいただきました。
10月回では研究開発グループ ルマーダデータサイエンスラボラトリの田村 雅人さんが解説をご担当。業務では画像処理を専門としておりテーブルデータはあまり触れることがないという田村さんでしたが、ご自身がテストプレイされた際のソースコードを共有しながら、手順を丁寧に解説していらっしゃいました。
閉会後は、ビデオ通話上で好きなメンターさんとお話しできるコミュニケーションタイムを設けていました。実施中は常に緊迫した雰囲気がありましたが、コミュニケーションタイムではみなさんリラックスした空気でした。今回の課題のお話はもちろん、日立製作所研究開発グループでの業務や学生さんの今後のキャリアなど様々な話題に花が咲き、両日共にとても盛り上がっていました。特に9月回の刑部さん・10月回の田村さんのお二人は、課題解説をご担当されたこともあって学生さんから大人気でした。企業のR&Dで活躍する社員の方とのコミュニケーションは、学生さんにとっても貴重な機会だったのではないでしょうか。みなさんの今後に役立つ経験となっていれば嬉しく思います。
当日参加されたメンターさんにも、各回2名ずつインタビューを実施しています。ぜひご覧ください。
企業のR&Dで働く面白さ、日立製作所における研究開発グループの立ち位置などについてお話を伺っています。
2日程を終えて
初のオンライン開催となった日立製作所主催のコンペティション。オンラインだからこそ、国内の様々の地域から参加でき、これまでイベント形式のコンペティションに挑戦する機会のなかった方にとって大きなチャンスとなったのではないでしょうか。
今回、日立製作所 研究開発グループの方々にメンターとしてご参加いただいたことで、「企業で働く研究者としてのキャリア」をイメージできた参加者の方もいらっしゃったと思います。どのメンターさんもスキルレベルの高い方ばかりで、また非常に親身にご対応いただきました。短時間のコンペティションで、複雑な処理が必要な課題だったからこそ、トップ層以外の方はメンターさんにアドバイスを求めることが重要だったのではないかと思います。直接他の方からアドバイスをいただけるのも、通常のオンラインコンペティションと異なりイベント形式ならではのことですので、参加された際はぜひ積極的にメンターさんに質問してみてください。
また、参加者の方からは「日立製作所といえば家電やシステム開発のイメージが強かったが、AI研究にかなり力を入れている企業だとわかった」といった声もありました。日立製作所では、2020年3月に「ルマーダデータサイエンスラボ」という社内のトップデータサイエンティストを横断的に集結させた新しい組織を立ち上げました。さらに、2021年度末までにデータサイエンティストを3,000名に増強することをめざしています。今回のイベントを通じて参加者の方には、グローバルでも強い影響力を持つ日立製作所のAI事業について触れていただくことができました。
終了後のコミュニケーションタイムでは、「勉強になったことがたくさんあった」「自分のスキルの無さを痛感した、もっと勉強したいと思った」といった言葉を数多く聞くことができ、運営側としても非常に嬉しく感じました。コンペティションはたった1日ではありますが、メンターさんのアドバイスはもちろん、他の人の解法や課題解説も聞くことができます。その1日がより濃い学びの場となるよう、運営チーム一同、オンラインでもより良いイベント開催を目指してまいります。
Peakersでは、今後も様々なハッカソン・MeetUp・インターンシップを開催予定です。ここでしか体験できない学びを手に入れたい学生の皆さん、ご参加をお待ちしております!