Reinforcement Learning の self play についてのまとめ

強化学習の self play について知りたいことがあるので、ざっくりと有名な論文を読んでいく。熟読はしない。

知りたいこと

Mastering the game of Go without human knowledge +
AlphaGo Zeroの論文を読むその4(自己対局) - TadaoYamaokaの日記
- 性能指標 Elo rating for each Training time
- 最良の model インスタンスを更新していく checkpoint で evaluate して 55% 以上で勝てたら入れ替え
- 同一インスタンスかはわからなかったが明記されてないということは同一？
- stuck しないらしい
Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm)
- 上記と同じっぽい
Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement
- 6種類の違うモデルを戦わせた。過去の自分と戦わせたとの記述がある。
- game 内に内蔵されている別AIとの対戦で評価？