Entries from 2017-08-23 to 1 day

Deep Reinforcement Learning for Dialogue Generation を読む(まだ途中)

ML

Abstract seq2seq は良いのだけど未来の会話の方向性を無視した近視眼的な output を出しがち。future reward をモデル化することで良いゴールを達成するよ。 モデルは2人の virtual agent をシミュレートする。vitual agents は policy gradient mothods を…