Peakers Academy最優秀賞 大日方 考輝さん – 東京大学大学院 理学系研究科 物理学専攻

2019年5月下旬。Gunosyにてデータ分析ハッカソンが行われた。数十のウェブメディアおよび数万の記事データを与えられ、どの記事がどのメディアに掲載されているものかを機械学習によって推測し、その精度を競う。データ分析スキルだけではなく、自然言語処理の経験なども活かせる内容だ。ハッカソンは丸2日に渡って行われ、Gunosyのデータサイエンティスト数名が技術メンターとして学生のフォローを行なった。

2日間に渡る激戦を制したのは、東京大学大学院 理学系研究科 物理学専攻の大日方孝輝さん。メディアと記事の突合精度は96%を超えた。普段は物理の測定データに機械学習の手法を適用する研究をしているという大日方さんにお話を聞いた。

ラスト1〜2時間は、徐々に終了ムードが漂う中、真剣にスコアと向き合う大日方さん

―ハッカソンに参加してみていかがでしたか?

今回、ハッカソンは初参加でした。同年代の仲間と同じ空間でともにデータ解析をするという経験は、とても刺激的でした。他の人のスコアをリアルタイムで見つつだったので、緊張したり焦ったり。緊張のピークは、最後の1時間!最後のアイデアを思いついたのが20分前で、回るか回らないか、ギリギリのところだったんです。終了5分前に何とか提出できて、最後の最後にスコアアップに成功。限られた時間で、対象に順応しつつ、知見や技術を最大限に生かすという実務的な経験ができました。

Gunosyさんには、とてもフレンドリーで親切に接していただきました。明るい感じの、いい企業だなと感じました。みなさん優しくて、どんな会社でどんなことをしているのかの理解も深く進みました。

スコアは更新されるたびにSlackで共有されるため、参加者が大日方さんにアドバイスを求めにくるシーンがしばしば見られた

―スコアを上げるためにどのように取り組みましたか?

今回のタスクで重視したのは、データの中身です。合計4万件あるニュースをすべて見るのは無理なので、全体的な傾向を掴んむために俯瞰したり、特に推定が難しい箇所に注力したりしながら、コツコツ進めました。機械学習では技術が注目されがちですが、技術だけは優れた解決にはなりません。そこで今回は、単に有名な手法を使うのではなく、知見を駆使して自分なりのアプローチを考えるようにしました。普段の研究では、なぜそういう結果が出たのか、自分なりの分析・解釈が求められます。今回も、精度が上がったり下がったりする度に、「なぜか?」とていねいに分析・解釈していったのが良いスコアにつながったのだと思います。

ギリギリの時間でも「いける」と自信を持って進めることができたのは、序盤から方法を整理して進めるようにしていたからだと思います。新しい思いつきを次々にやっていくと、思考が散らかってしまって、何をやっているのかわからなくなったり、つまらないミスを重ねてしまうことがあります。なので、普段から1週間後に見てもわかるような整理されたコードを書くことを意識していて、それが役に立ちました。趣味の競技プログラミングで、どのコードをどれくらいの時間で回せるかという感覚が養われていたことも良かったのかもしれません。

―今後、技術的にどのようなチャレンジをしていきたいですか?

今後は、新しい技術について、何をどこまでできるのかという範囲を正しく伝えていけるようになりたいですね。単に万能ではない部分が結構大きいので、技術を誇張することなく、強み・弱み、できる範囲を示していきたいです。

[contact-form-7 404 "Not Found"]