作者面對的是強化學習領域中自博弈方法的研究問題。具體問題包括:
- 多智能體強化學習(MARL)中的複雜動態問題:在MARL中,智能體動作的相互依賴性引入了顯著的挑戰,因為環境對每個智能體來說都是非靜態的。
- 自博弈算法的分類和統一框架缺失:儘管自博弈在各種場景中有廣泛應用,但目前缺乏一個全面的調查,特別是關注自博弈的理論安全性、算法框架以及PSRO系列算法的不兼容性問題。
- 自博弈算法在實際應用中的挑戰:自博弈雖然在圍棋、國際象棋、撲克和視頻遊戲等場景中發展了超越人類專家的策略,但伴隨着如收斂到次優策略和顯著的計算需求等限制。