查看“WikiEdge:ArXiv-2408.01072v1/terms”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.01072v1/terms|action=edit}} 编辑]</div>
这篇文章的术语表如下：
* [[自我对弈]]（Self-play）：在[[强化学习]]中，自我对弈是指智能体通过与自己的副本或过去的版本进行交互，以优化决策过程的方法。
* [[强化学习]]（Reinforcement Learning, RL）：一种机器学习范式，通过与环境的交互来优化决策制定过程。
* [[马尔可夫决策过程]]（Markov Decision Process, MDP）：一种数学框架，用于描述环境的状态、动作、转移和奖励。
* [[深度强化学习]]（Deep Reinforcement Learning）：将深度学习与传统强化学习结合的方法，用于处理高维状态空间。
* [[多智能体强化学习]]（Multi-agent Reinforcement Learning, MARL）：在强化学习中考虑多个智能体相互作用的设置。
* [[博弈论]]（Game Theory）：一种数学理论，用于建模多个决策者之间的交互。
* [[纳什均衡]]（Nash Equilibrium, NE）：一种策略组合，其中每个玩家的策略都是其他玩家策略的最佳响应。
* [[自我对弈算法]]（Self-play Algorithms）：在自我对弈中使用的算法，用于训练智能体以提高其在特定任务中的表现。
* [[策略空间响应Oracle]]（Policy-Space Response Oracle, PSRO）：一种用于自我对弈的算法系列，通过考虑策略空间中的响应来优化智能体的行为。
* [[元策略]]（Meta-strategy）：在自我对弈中，指智能体在更高层次上考虑的策略，通常涉及对策略群体的混合或概率分配。