WikiEdge:ArXiv-2408.01072v1/terms

这篇文章的术语表如下：

自我对弈（Self-play）：在强化学习中，自我对弈是指智能体通过与自己的副本或过去的版本进行交互，以优化决策过程的方法。
强化学习（Reinforcement Learning, RL）：一种机器学习范式，通过与环境的交互来优化决策制定过程。
马尔可夫决策过程（Markov Decision Process, MDP）：一种数学框架，用于描述环境的状态、动作、转移和奖励。
深度强化学习（Deep Reinforcement Learning）：将深度学习与传统强化学习结合的方法，用于处理高维状态空间。
多智能体强化学习（Multi-agent Reinforcement Learning, MARL）：在强化学习中考虑多个智能体相互作用的设置。
博弈论（Game Theory）：一种数学理论，用于建模多个决策者之间的交互。
纳什均衡（Nash Equilibrium, NE）：一种策略组合，其中每个玩家的策略都是其他玩家策略的最佳响应。
自我对弈算法（Self-play Algorithms）：在自我对弈中使用的算法，用于训练智能体以提高其在特定任务中的表现。
策略空间响应Oracle（Policy-Space Response Oracle, PSRO）：一种用于自我对弈的算法系列，通过考虑策略空间中的响应来优化智能体的行为。
元策略（Meta-strategy）：在自我对弈中，指智能体在更高层次上考虑的策略，通常涉及对策略群体的混合或概率分配。

导航菜单