オンライン開催!日立製作所のトップAI研究者と学ぶコンペティション-地下道歩行者量予測- メンターインタビュー 刑部 好弘さん

毎年好評を博している日立製作所コンペティション。本年は2020年9月26日および10月24日の二度にわたって開催され、合計50名以上の参加者たちがしのぎを削った。

本年のテーマは北海道の駅前地下歩道における利用者数予測だ。札幌駅前の地下歩道は、休日約4万人、平日約5万人と多数の観光客や通勤・通学者が利用する交通の要地である。今回のコンペティションでは、「新型コロナウイルスの感染拡大下でも地下道を安心して利用してもらうための、アプリ等による予想混雑度提供」を仮想の事業目的として設定。参加者はそのプロトタイピングと仮定して、札幌市が公開する地下道の人流データや交通機関のデータ・気象データなどから30分後の地下道利用者数を予想するモデルの構築に挑んだ。

当日は、日立製作所・研究開発グループの社員の方がメンターとして参加。経験豊富で高いスキルを持つ社員たちが、参加者を手厚くサポートした。

9月26日回でのメンターのひとりが、研究開発グループ 人工知能イノベーションセンタ 知能情報研究部に所属する刑部 好弘さんだ。刑部さんは業務で今回の課題にも近い、地理空間情報に関する研究を行なっている。自身も今回の課題に取り組み、開催中はリーダーボードにも参加。ワーク終了後の課題解説ではコンペティションの解法だけにとどまらず、地理空間情報におけるデータ分析について大変興味深い講義を行っていただいた。

今回のコンペティションに非常に積極的に取り組まれていた刑部さん。メンターとしてのイベント参加は初めてとのことで、参加者の懸命な姿から刺激を受ける部分もあったという。インタビューでは上位入賞者の勝因や初心者へのアドバイスなどコンペに関することはもちろん、企業の研究者として働く楽しさや将来の展望など、様々なお話を伺った。

1日間学生さんの取り組みを見て、率直なご感想をお聞かせください。

学生さんのスキルの幅が広く、慣れている方もいれば、コンペはじめてという方もいて、いろいろなバックグラウンドの方が参加しているなという印象でした。コンペに慣れている方だと「これはとりあえずLight GBMでやればいいよね」となりがちなところを、そうではなくて、ARMAなどの状態空間モデル、ベイズ最適化のようなアルゴリズム、あるいはLSTMをベースとした深層学習モデルなどを試そうとしている方がいたのが印象的でした。全体的には、時系列データをどう扱っていいのかわからない、クレンジングや前処理をがんばったために時間がなくなってしまってモデルのチューニングまで手が回らなかったという学生さんが多かったように思います。

今回参加者のスキルにばらつきがある中で、苦戦していた初心者の方に対してはどういうアドバイスをされましたか?

データのクレンジングや前処理はがんばり始めたらきりがないので、そこそこで終えて、いったん何でもいいからモデルに入れてみる。その結果を見てまたクレンジングするなど試行錯誤の回数を繰り返したほうがいいと伝えました。トライアルの時間はそんなに長くはありませんから、欠損値補完がうまくいかないと悩むよりは、とりあえずドロップしてまずは結果を出してみたほうがいいと思います。

上位入賞の方の勝因はなんでしょうか?

基本的なアプローチとしては上位者同士で大差はありませんでした。私が行ったテストプレイは4位でしたが、上位入賞者と私のモデルの一番大きな差は欠損値の処理や外れ値の扱い方だったと思います。私のモデルはベースラインを出す意味合いから、補完などの処理は一切しませんでした。

他の方と上位の方のスキル的な差はどこにあると思いますか?

やはり経験値だと思いますね。上位の方はコンペ経験が豊富で使いまわせるコードの資産もあり、試行錯誤の時間が十分取れたのが大きかったのではないでしょうか。こういうパターンならこういう処理をすればいいという慣れ感というか、そういった経験を蓄積していけば、今回は中間位にいた人も今後は上位に食い込んでいけるはずです。

今回参加されたような、先端デジタル人材となりうる方が貴社に入社された場合、どんな活躍をしてほしいと思っていますか?

私たち研究開発グループのAI開発者は、社内のデータサイエンティストが既存手法では解決できない案件を依頼されることが多いんです。ですから、既存手法をいかに使いこなすかということよりも、そういう手法では太刀打ちできないものにどう対処していくかが重要になります。

既存手法では解けない問題を打破する“突破力”をつけるためには、当然のことながら既存手法の知識が必要ですから、今回のようなコンペで基礎力をつけて、入社後はさらにその先の課題にチャレンジしていただければと思います。

研究開発グループは、社内ではどのような立ち位置の部署なのですか?

各事業部で働くデータサイエンティストは、その事業分野に特化しています。物流倉庫のデータサイエンティストなら物流倉庫の最適化などについて詳しく、バイオインフォマティクスであれば生体情報に詳しい、というようにデータサイエンティストは各分野のエキスパートなわけです。一方、私たち研究開発グループはもっとドメインが広くて、色々なところで応用できる技術の開発を行っているので、多種多様な分野を渡り歩ける面白さがあります。

学生さんの中には、大学で研究者として働くキャリアを考えている方もいらっしゃるかと思います。大学の研究者と、企業の研究者の違いはどこにありますか?

一番大きな違いは、企業の研究者は顧客の悩みや課題をダイレクトに聞けるということです。たとえば、論文レベルではうまくいきそうだけれど、現場のデータに適用するとまったくうまくいかないということがありますが、それは現場では暗黙の制約条件を課されていることがあるからです。そういう実情には企業の研究者のほうが多く触れることができるので、より実践的で現場の悩みに寄り添った技術を生み出そうという力が生まれます。

研究開発グループとしての、AI技術への期待をお聞かせください。

日立グループは事業分野がとても広いので、汎用性の高い技術が求められていると感じます。また、単なる自動化や省力化にとどまらない、人と協調するような、例えば人にインスピレーションを与えたりするようなAI技術を生み出すことができたら面白いと思います。

個人的にはどんな展望をお持ちですか?

私は現在、地理空間と材料科学のふたつの領域をテーマにしています。一見まったく関係がなさそうですが、kmからnmへとスケールが変わるだけで、本質的には「空間情報」という共通のターゲットを対象としています。多様なニーズに応えるためにも、画像処理、自然言語処理、データマイニング、データフュージョンなど多岐にわたる最先端技術を見据えながら、あらゆるスケールに対応できる画期的な技術を生み出して、世の中で本当に必要とされるソリューションをタイムリーに提供していきたいと考えています。

今回のコンペで個人的に得られたことはありますか?

私自身は学生時代は基礎よりの研究しかしていなくて、研究の成果が産業界でどう使われるかを考えることがほとんどありませんでした。今回メンターとして参加してみて、コンペや企業のR&D活動に興味を持って自分から参加している学生がこんなにもたくさんいることを知り、そして文字通り1日中一所懸命取り組んでいる姿を見てすごいなと感心しました。また、私はCatBoostやLightGBMを実務で直接使う機会が少ないので、それらを使いこなしている学生さんを見て刺激を受けましたね。

1日頑張った学生さんに一言お願いします。

長丁場お疲れさまでした! 限られた時間のなかでアウトプットを出していくことは難しいことですが、よくチャレンジしてくれたと思います。今後もハッカソンやインターンに参加して、スキルアップをし続けてください。期待しています!

[contact-form-7 404 "Not Found"]