Quora コンペ入賞者手法まとめ

自分のコメントはかなり適当。後で更新するかも。

3rd

  • 3rd place kernel | Kaggle
  • Keras
  • embedding load 時に stemmer and lemmetizer してできるだけ dictionary の中から見つける
  • bidirectional GRU と LSTM の output の maxpool を concat
  • max_length = 55 と短め
  • Local solid CV to tune all the hyperparameters と書いてあるがどこだろう

13th

  • 13th place solution | Kaggle
  • Keras
  • latex 記法クリーニング
  • https/http/ftp クリーニング
  • punct クリーニング
  • Embedding:Glove0.64+ Params0.36
  • 3 model の ensemble
      1. bidirectional LSTM and GRU の output をconcat して maxpool1D 後 Dense。
      1. bidirectional GRU + AttentionWeightedAverage
      1. bidirectional LSTM + CNN

20th

  • Surprising 20th place - 2 models, various embeds, mixed loss | Kaggle
  • PyTorch
  • concat(GloVe, FastText) embedding + LSTM + TextCNN with kernel size [1, 2, 3, 4] + 2 dense layers, with some batch normalizations and dropout layers
  • mean(GloVe, Para) embedding + LSTM + GRU + concat(GlobalAvgPool, GlobalMaxPool) + 2 dense layers, with some dropout layers

22nd

27th

  • 27th kernel | Kaggle
  • embedding load 時に stemmer and lemmetizer してできるだけ dictionary の中から見つける
  • average blend of 5 models which includes all 4 embeddings with a local CV of 0.7028
  • 長さなどの extra features
  • tfidf
  • Kernel のCell 出力が長すぎて読めない

70th