Sequence to Sequence Learning with Neural Networks を読む

論文を流し読み、途中でメモを諦めた。word embeddings をどのタイミングでやっているかわからなかった。基礎知識だから省略されたのかな。

Introduction

  • Input sequence を 1 timestamp ずつ読んで large fixed vector を得る(Input の長さは可変長だが fixed vector になるのがポイント)
  • Input は逆順にすると成績が良くなる
  • translation は「言い換え」になることが多いので LSTM translation の objective が「意味を学ぶ」方向へ向かうことになる

The model

  • LSTM は Input Sequence を fixed dimensional representation v にしてから処理する
  • LSTM を2つ使う。1つは Input Sequence 用、もうひとつは Output Sequence 用。そうすることでパラメータを増やしつつ妥当な計算コストをいじできる
  • 4 layers の LSTM を使用
  • Input sequence を逆順にすると良くなる。abc を αβγ にマッピングするのではなくて cba を αβγ にマッピングするように LSTM を train する。そうすると a は α に b は βに近くなって良い。