家具ECサイトのクローズドデータから受注数予測に挑戦!-2Dayオンラインインターンシップ- 最優秀賞 村瀬達也さん – 東京電機大学大学院 理工学研究科 情報学専攻

機械学習系インターンシップ「家具ECサイトのクローズドデータから受注数予測に挑戦! -2Dayオンラインインターンシップ-」が、2021年7月3日-4日の日程でオンライン開催された。本イベントでは「急成長する家具EC企業のデータを用いた売上予測に挑戦せよ」というミッションに基づき、Python・R等での機械学習の開発経験者をはじめ、機械学習エンジニア、データサイエンティストの仕事に興味がある学生らがより正確な売上予測モデル構築を目指して競い合った。

主催は、家具・インテリアの通信販売業界の急成長ベンチャー「ベガコーポレーション」。述べ4,500万人(2021年3月時点)が利用する巨大家具インテリアEC「LOWYA」および99の国と地域で利用実績のある越境EC「DOKODEMO」などのEコマース事業を展開する企業として注目されている。

機械学習の知識やスキルを実践できる本コンペティションでは、ECサイトに関する貴重なクローズドデータを提供されたほか、当日はベガコーポレーションのデータ事業に関わるエンジニアが、学生と1on1によるメンタリングを実施するなど、フォローを行った。機械学習プログラミングだけでなく、企業におけるデータ活用や、DXの実態に興味がある学生たちが、実データを用いた受注数予測のモデル作成+ビジネス検討への挑戦を通して、ベガコーポレーションの事業・過去のデータ活用事例等について知り、同社のデータ活用や自分自身の活躍可能性を考える2日間となった。

最優秀者:東京電機大学大学院 理工学研究科 情報学専攻 修士1年 村瀬達也さん

2日間に渡る激戦を制したのは、村瀬達也さん。普段は、東京電機大学大学院 理工学研究科 情報学専攻に所属し、情報学に関する研究を行う傍ら、理化学研究所革新知能統合研究センター (AIP)中川研究室の共同研究にも参画する。内容は、ECサイトでの商品購入時における個人情報管理AIの開発・研究だ。個人情報を利用者に代わり適切に管理していくには「AI倫理」「パーソナルAIエージェントによる個人データの保護と利活用」「AIとビッグデータに係わる法制度」など様々な視点での研究が求められる。

今回のコンペティションのテーマと親和性の高い研究に携わる村瀬達也さんに「本コンペティションの印象は?」「好成績につながったポイントとは?」などのお話を伺った。

現在の研究内容や学外での活動について教えてください

学部4年より大学での学びと並行して、理化学研究所革新知能統合研究センター(AIP) 中川研究室の共同研究に参画しています。内容は、ECサイトでの商品購入時における個人情報管理AIの開発・研究です。

中川研究室で共に研究する学生メンバーの行動力が刺激となり、この二年間で様々な学外の活動へ挑戦するようになりました。具体的には「東京大学グローバル消費インテリジェンス寄付講座(GCI2020Winter)」の講義や今回のコンペティションへの参加です。

コンペティションに参加してみていかがでしたか?

過去に東京大学グローバル消費インテリジェンス寄付講座(GCI2020Winter)の受講者内でのコンペティションに参加した経験があります。今回は、優勝を目指して参加したというよりは「実社会でECサイトを運営している企業の実データに触れられる」といった部分に大きな魅力を感じてエントリーを決めたというのが本音です。

これまでに参加経験のあるコンペティションとの最も大きな違いは、実施期間でした。過去のコンペティションでは実施期間が1~2週間あったこと対し、本コンペティションは2日間です。今回は限られた時間で「いかに高スコアにつなげるか」という挑戦でもありました。

実は、終盤まで回答の投稿方法を間違えていてスコアが出ないという初歩的なミスをしていました。そのため、初日は1日中リーダーボード*1のランキング最下位で、モデルの構築も終わっておらず非常に不安でした。

2日目、終了までに間違いに気づけたのは、メンターさんに質問してサポートしていただいたおかげです。スコアが出るまでは気持ちが落ち込んでしまうこともあったので「うまくいかない時のメンタルの切り替え方」は、自分の今後の課題だと感じました。

*1 実施中の精度スコアランキングが表示されるシステム。

好成績を修めましたがどのような工夫をされましたか? また、普段の研究開発がスコアに繋がった部分はありますか?

先程お話しした投稿ミスのせいで、ずっと正しいスコアがわからない状態で進めていました。”残り30分”というところで初めてリーダーボードに正しいスコアが反映され、1位になっていたのです。その瞬間「これは優勝できるかもしれない」と感じ、最後は過学習の見直しなど細かい調整を進めていきました。結果的にこのような進め方になってしまったので、どこが好成績につながったか、今は正直わからない部分があります。この後、じっくり自己分析したいと思っています。

最も苦労した点は、学習データの中にある時系列データの扱いです。もっと伸ばせたと思うところは、前処理です。モデル構築に時間がかかったので、そこを手早くできていればもっと前処理に時間が使えたかもしれません。

もともと、研究室でのデータ分析分科会や勉強会を通じて、Kaggle(カグル)やベースSQLなどの技術的な知識を持っていました。これらは高スコアにつながった要素のひとつだと見ています。

主催企業やメンターさんへの印象について、率直な感想を教えてください

主催企業のベガコーポレーションさんの印象は、本コンペティションに参加したことによって、より好印象に変わりました。メンターの方への相談や質問などを通して、想像以上に「データサイエンティストの育成に注力している」「データの収集、利活用に積極的」と感じる部分が多かったからです。

メンターの方からは、1日目の1on1の時点でつまずいていた部分のアドバイスをいただきました。一対一で、じっくりとこちらの質問以上に幅広く答えていただき、とても勉強になる時間でした。

また、私は、機械学習を使った進め方を実践していましたが、2日目の解説では「機械学習の手法だけではなく、平均や中央値などの統計的な手法が良い結果を出すこともある」という自分にはなかった発想に触れることができました。

何より学びにつながったのは「企業側、つまりデータ取得元の事業を運営する側の視点でデータ分析をする」観点を持つことです。ビジネス経験をまだ積んでいない私のような学生にとっては、視野を広げることができる貴重な経験だったと思います。まさに、事業会社で活躍するデータサイエンティストの視点に触れることができる2日間となりました。

今後、どのようなチャレンジをしたいと思っていらっしゃいますか?

まずは足元のミッションとして、理化学研究所革新知能統合研究センター (AIP)中川研究室の共同研究共同研究で成果を出すことが第一の目標です。並行して、研究室でデータ分析分科会などの勉強会を主催しているので「主催者」としての力をつけるべくKaggle(カグル)などのコンペティションにも挑戦していきたいです。

今回のコンペティションでは「データサイエンティストにとってのビジネス面での知識経験」の重要性を感じることができました。つまり、企業でデータを分析するには、データサイエンティストとしての知見にプラス、その事業に関する知見も欠かせないという気づきを得ることができました。これは今の私にはまだ不足している部分だということも改めて感じました。引き続き、学外のあらゆる活動へのチャレンジを通してビジネス面での知見も修得していきたいと考えています。

[contact-form-7 404 "Not Found"]