製造業での機械学習活用、その最先端に挑戦!製鋼データを用いた不良品検知コンペティション 最優秀賞 鳥羽真仁さん 東北大学 経済学研究科
2020年12月19日〜20日にかけて開催された「製造業での機械学習活用、その最先端に挑戦! 製鋼データを用いた不良品検知コンペティション」。本イベントは、トヨタグループ唯一の素材メーカーである愛知製鋼株式会社が初主催した、学生向けのオンライン機械学習コンペティションだ。
課題は、製鋼過程(鋼を溶かし、固める工程)で測定された多様なデータを用いて、不良品を2値で予測するというもの。業界に先駆けて素材の製造におけるデータ活用に取り組む同社だからこそ持つ、貴重なクローズドデータが提供された。
当日は、デジタル・ソリューション開発室CAE・AIチーム チーム長で、オールトヨタ機械学習実践道場にて師範も務める村瀬 博典氏をはじめ、愛知製鋼でデータ活用・AI分野を担う社員がメンターとして多数参加。参加者を実務的な視点から手厚くサポートした他、メンター陣が作成したベースラインコード(標準的な精度となるサンプルモデルのソースコード)の提供も行われた。
多くの学生が「製鋼」について知るところからのスタートとなったこともあって、歯応えのある課題だった今回のイベント。苦戦する参加者も多かった中、2日目の朝からトップを走り続けたのが東北大学 経済学研究科の鳥羽真仁さんだ。
鳥羽さんは、大学では空間計量経済学を研究しており、機械学習は独学で学んでいるという。有名機械学習プラットフォームでのコンペティション参加経験も豊富な鳥羽さんが、今回のイベントでトップを獲れた秘訣は何か。イベントを通じての学びや感想なども含め、お話を伺った。
参加されてみて、いかがでしたか?
「製鋼」という初めて触れる分野のデータだったので、わからないことが多く難しかったです。製鋼のデータはどういうふうに取り扱うとよいのか、課題設定の背景などのドメイン知識が課題を解くにあたって非常に重要だと考えて、そこをメンターさんに質問しながら進めていきました。課題の全体像を自分なりに解釈するまでがとても大変でした。
今回参加しようと思った大きな理由は、企業のクローズドデータを使って行われるコンペティションであるということでした。実際に参加してみて、実務で使われていて、かつクローズドで珍しい内容のデータを扱えたことが、大きな経験になったと思います。
見事第一位の成績を収められましたが、どういったことが決め手になったと思われますか?
使用した手法としては、機械学習コンペティションでは一般的なアンサンブル学習を使ったものでした。差が出たのは、特徴量エンジニアリングと不均衡データへの処理で工夫したことかなと思います。
アンサンブル学習については、初日から視野に入れていました。最初にいくつかのモデルで予測をしてみた際、モデルによって出力結果の差異があり、組み合わせればもっと良くなるだろうと考えていたんです。最終的にはCatBoostとLightGBMをアンサンブルしました。
特徴量エンジニアリングでは過去のコンペティション参加の経験が活きたと思います。自分の中で特徴量生成の方針をある程度持っているので、今回の課題でも過去のソースコードを応用しながらスピーディに対応できました。メンターさんに不良品が出やすい条件を聞いて関連の変数を組み合わせたり、モデルが示す特徴量の重要度を参考にしたりしながら追加していき、特徴量を元の2倍程度まで増やしました。ただ、もう少し幅広く特徴量を見られていればもっと改善できたと思う部分もあって、反省点でもあります。
特に大きな差になったと感じているのは不均衡データ(目的変数の正負の偏りが大きいデータ)の取り扱いです。5回目の結果投稿までは、自分の作ったモデルのスコアがベースラインコードで出せるスコアを超えられませんでした。そこで、アンサンブル学習時に重みをつけて不均衡データに対応できるようにしたところ、スルスルとスコアが上がっていきました。かなり手間取ったのですが、今回は不均衡の処理をしっかりしないと勝てないコンペだったなと思います。
特に難しかった点や、苦労したことを教えてください。
やはり先程挙げた不均衡データの取り扱いには苦労しました。あとは最終的に提出する予測結果の選び方です。
何を参考にしたらいいか悩んでいたためメンターさんに質問したところ、実務ではコンフュージョンマトリクス(2値分類の結果を示した混合行列)を参考にして決めることがあると教えていただきました。
今回のデータに沿った見方も教えてくださり、それを元に提出しました。何らかの評価指標を基準にするのが一般的だと思っていたので、他にも考慮できるところはたくさんあるんだなととても勉強になりました。
主催の愛知製鋼株式会社や、メンターさんにはどんな印象を持たれましたか。
皆さんプロフェッショナルという感じで、こちらが質問したことにもすぐ答えていただき、とても頼れる方々という印象でした。もちろん知識も豊富ですし、実務に携わっている方だからこそ持てる視点というのも学べました。今の自分に足りないものを吸収できたと思います。
企業に関しては、製造業や工業分野でもデータサイエンスは活用されているんだなと実感できました。自分の専門とは分野が離れているので知識がなかったというのもありますが、こういった業界でも自分が活躍できるかもしれないというイメージを持つことができ、視野が広がる良い機会になりました。
今後、チャレンジしたいことはありますか?
将来はデータサイエンティストになりたいと思っているので、データサイエンスの能力をもっともっと磨きたいです。
仕事としてデータサイエンスができるようになった延長線上で、社会に貢献する仕事に取り組めれば、すごく嬉しいですね。世界中のデータはどんどん増えていくと言われていますし、それを扱える人材がいることで世の中がよりよくなっていけばいいなと思っています。