Entries from 2017-08-01 to 1 month

2017-08-23

Deep Reinforcement Learning for Dialogue Generation を読む（まだ途中）

Abstract seq2seq は良いのだけど未来の会話の方向性を無視した近視眼的な output を出しがち。future reward をモデル化することで良いゴールを達成するよ。モデルは2人の virtual agent をシミュレートする。vitual agents は policy gradient mothods を…