2017-03-13 Sequence to Sequence Learning with Neural Networks を読む ML 論文を流し読み、途中でメモを諦めた。word embeddings をどのタイミングでやっているかわからなかった。基礎知識だから省略されたのかな。 Introduction Input sequence を 1 timestamp ずつ読んで large fixed vector を得る(Input の長さは可変長だが fixed vector になるのがポイント) Input は逆順にすると成績が良くなる translation は「言い換え」になることが多いので LSTM translation の objective が「意味を学ぶ」方向へ向かうことになる The model LSTM は Input Sequence を fixed dimensional representation v にしてから処理する LSTM を2つ使う。1つは Input Sequence 用、もうひとつは Output Sequence 用。そうすることでパラメータを増やしつつ妥当な計算コストをいじできる 4 layers の LSTM を使用 Input sequence を逆順にすると良くなる。abc を αβγ にマッピングするのではなくて cba を αβγ にマッピングするように LSTM を train する。そうすると a は α に b は βに近くなって良い。