higepon blog

Kaggle PLAsTiCC Astronomical Classification competition まとめ

先日終了したPLAsTiCC Astronomical Classification | Kaggleコンペ。上位のチームの解法のまとめ。自分は1097チーム中247位でした。Coursera で Kaggle コースをとったあとに途中から参加したコンペで、力及ばずだったので何が足りなかったのか知るためのまとめ。

できなかったこと・やらなかったこと

天文系の domain knowledge 勉強
gradient boost 系のモデル。NN のみに集中した。
trivial でない feature engineering.

知りたいこと

domain knowledge はどの程度必要だったのか？
NN はどこまで健闘できたのか？
feature engineering はどの程度がんばればよいのか？

Top 5

1位

Overview of 1st place solution | Kaggle
超新星宇宙論を研究している天文学者。
single LGBM model with 5-fold cross-validation
Gaussian processes to predict the lightcurves
Measured 200 features on the raw data and Gaussian process predictions.
Class 99 は LB probe した

2位

2nd-Place Solution Notes | Kaggle
NN 7 modelss, LG 2 models の ensembling.
Augmenting the training set.
Class 99 は LB probe した

3位

3rd Place Part I -CNN | Kaggle
LGB + CatBoost + CNN
CNN is a Fully 1D Convolutional Neural Network with 256 * 8,5,3 convolution kernels followed by a GlobalMaxPulling
time series data と meta feature を handle する複数の NN

4位

4th Place Solution with Github Repo | Kaggle
trained a model to predict hostgal specz using training set+ test set with hostgalspecz. Then used this model's predictions as a feature.
blend of LGB, NN and several stacking model
Class 99 は LB probe した

5位

Solution #5 tidbits | Kaggle
lightgbm + NN models, RNN and MLP.

結果

domain knowledge はどの程度必要だったのか？
- データが何であるかを説明できるくらいには必要だった
NN はどこまで健闘できたのか？
- 上位に NN モデル多し。詳細は Kernel を見たい。
feature engineering はどの程度がんばればよいのか？
- モデルによるが大量の feature の人達もいる