作者面对的是强化学习领域中自博弈方法的研究问题。具体问题包括:
- 多智能体强化学习(MARL)中的复杂动态问题:在MARL中,智能体动作的相互依赖性引入了显著的挑战,因为环境对每个智能体来说都是非静态的。
- 自博弈算法的分类和统一框架缺失:尽管自博弈在各种场景中有广泛应用,但目前缺乏一个全面的调查,特别是关注自博弈的理论安全性、算法框架以及PSRO系列算法的不兼容性问题。
- 自博弈算法在实际应用中的挑战:自博弈虽然在围棋、国际象棋、扑克和视频游戏等场景中发展了超越人类专家的策略,但伴随着如收敛到次优策略和显著的计算需求等限制。