Kaggle PLAsTiCC Astronomical Classification competition まとめ

先日終了したPLAsTiCC Astronomical Classification | Kaggleコンペ。上位のチームの解法のまとめ。自分は1097チーム中247位でした。Coursera で Kaggle コースをとったあとに途中から参加したコンペで、力及ばずだったので何が足りなかったのか知るためのまとめ。

できなかったこと・やらなかったこと

  • 天文系の domain knowledge 勉強
  • gradient boost 系のモデル。NN のみに集中した。
  • trivial でない feature engineering.

知りたいこと

  • domain knowledge はどの程度必要だったのか?
  • NN はどこまで健闘できたのか?
  • feature engineering はどの程度がんばればよいのか?

Top 5

1位

2位

3位

  • 3rd Place Part I -CNN | Kaggle
  • LGB + CatBoost + CNN
  • CNN is a Fully 1D Convolutional Neural Network with 256 * 8,5,3 convolution kernels followed by a GlobalMaxPulling
  • time series data と meta feature を handle する複数の NN

4位

  • 4th Place Solution with Github Repo | Kaggle
  • trained a model to predict hostgal specz using training set+ test set with hostgalspecz. Then used this model's predictions as a feature.
  • blend of LGB, NN and several stacking model
  • Class 99 は LB probe した

5位

結果

  • domain knowledge はどの程度必要だったのか?
    • データが何であるかを説明できるくらいには必要だった
  • NN はどこまで健闘できたのか?
    • 上位に NN モデル多し。詳細は Kernel を見たい。
  • feature engineering はどの程度がんばればよいのか?
    • モデルによるが大量の feature の人達もいる