Kaggle PLAsTiCC Astronomical Classification competition まとめ
先日終了したPLAsTiCC Astronomical Classification | Kaggleコンペ。上位のチームの解法のまとめ。自分は1097チーム中247位でした。Coursera で Kaggle コースをとったあとに途中から参加したコンペで、力及ばずだったので何が足りなかったのか知るためのまとめ。
できなかったこと・やらなかったこと
- 天文系の domain knowledge 勉強
- gradient boost 系のモデル。NN のみに集中した。
- trivial でない feature engineering.
知りたいこと
- domain knowledge はどの程度必要だったのか?
- NN はどこまで健闘できたのか?
- feature engineering はどの程度がんばればよいのか?
Top 5
1位
- Overview of 1st place solution | Kaggle
- 超新星宇宙論を研究している天文学者。
- single LGBM model with 5-fold cross-validation
- Gaussian processes to predict the lightcurves
- Measured 200 features on the raw data and Gaussian process predictions.
- Class 99 は LB probe した
2位
- 2nd-Place Solution Notes | Kaggle
- NN 7 modelss, LG 2 models の ensembling.
- Augmenting the training set.
- Class 99 は LB probe した
3位
- 3rd Place Part I -CNN | Kaggle
- LGB + CatBoost + CNN
- CNN is a Fully 1D Convolutional Neural Network with 256 * 8,5,3 convolution kernels followed by a GlobalMaxPulling
- time series data と meta feature を handle する複数の NN
4位
- 4th Place Solution with Github Repo | Kaggle
- trained a model to predict hostgal specz using training set+ test set with hostgalspecz. Then used this model's predictions as a feature.
- blend of LGB, NN and several stacking model
- Class 99 は LB probe した
5位
- Solution #5 tidbits | Kaggle
- lightgbm + NN models, RNN and MLP.
結果
- domain knowledge はどの程度必要だったのか?
- データが何であるかを説明できるくらいには必要だった
- NN はどこまで健闘できたのか?
- 上位に NN モデル多し。詳細は Kernel を見たい。
- feature engineering はどの程度がんばればよいのか?
- モデルによるが大量の feature の人達もいる