higepon blog

Sequence to Sequence Learning with Neural Networks を読む

ML

論文を流し読み、途中でメモを諦めた。word embeddings をどのタイミングでやっているかわからなかった。基礎知識だから省略されたのかな。

Introduction

Input sequence を 1 timestamp ずつ読んで large fixed vector を得る（Input の長さは可変長だが fixed vector になるのがポイント）
Input は逆順にすると成績が良くなる
translation は「言い換え」になることが多いので LSTM translation の objective が「意味を学ぶ」方向へ向かうことになる

The model

LSTM は Input Sequence を fixed dimensional representation v にしてから処理する
LSTM を２つ使う。1つは Input Sequence 用、もうひとつは Output Sequence 用。そうすることでパラメータを増やしつつ妥当な計算コストをいじできる
4 layers の LSTM を使用
Input sequence を逆順にすると良くなる。abc を αβγ にマッピングするのではなくて cba を αβγ にマッピングするように LSTM を train する。そうすると a は α に b は βに近くなって良い。