Reinforcement Learning の self play についてのまとめ

強化学習の self play について知りたいことがあるので、ざっくりと有名な論文を読んでいく。熟読はしない。

知りたいこと

  • self play は同一インスタンス、別インスタンスどちらか?
  • 直感的にはどこかで stuck しそうな感じがするけど?
  • 学習が進んでいることをどのように評価するか?

論文