論文を流し読み、途中でメモを諦めた。word embeddings をどのタイミングでやっているかわからなかった。基礎知識だから省略されたのかな。
Introduction
- Input sequence を 1 timestamp ずつ読んで large fixed vector を得る(Input の長さは可変長だが fixed vector になるのがポイント)
- Input は逆順にすると成績が良くなる
- translation は「言い換え」になることが多いので LSTM translation の objective が「意味を学ぶ」方向へ向かうことになる
The model
- LSTM は Input Sequence を fixed dimensional representation v にしてから処理する
- LSTM を2つ使う。1つは Input Sequence 用、もうひとつは Output Sequence 用。そうすることでパラメータを増やしつつ妥当な計算コストをいじできる
- 4 layers の LSTM を使用
- Input sequence を逆順にすると良くなる。abc を αβγ にマッピングするのではなくて cba を αβγ にマッピングするように LSTM を train する。そうすると a は α に b は βに近くなって良い。