WikiEdge:ArXiv-2408.01072v1/terms
跳转到导航
跳转到搜索
这篇文章的术语表如下:
- 自我对弈(Self-play):在强化学习中,自我对弈是指智能体通过与自己的副本或过去的版本进行交互,以优化决策过程的方法。
- 强化学习(Reinforcement Learning, RL):一种机器学习范式,通过与环境的交互来优化决策制定过程。
- 马尔可夫决策过程(Markov Decision Process, MDP):一种数学框架,用于描述环境的状态、动作、转移和奖励。
- 深度强化学习(Deep Reinforcement Learning):将深度学习与传统强化学习结合的方法,用于处理高维状态空间。
- 多智能体强化学习(Multi-agent Reinforcement Learning, MARL):在强化学习中考虑多个智能体相互作用的设置。
- 博弈论(Game Theory):一种数学理论,用于建模多个决策者之间的交互。
- 纳什均衡(Nash Equilibrium, NE):一种策略组合,其中每个玩家的策略都是其他玩家策略的最佳响应。
- 自我对弈算法(Self-play Algorithms):在自我对弈中使用的算法,用于训练智能体以提高其在特定任务中的表现。
- 策略空间响应Oracle(Policy-Space Response Oracle, PSRO):一种用于自我对弈的算法系列,通过考虑策略空间中的响应来优化智能体的行为。
- 元策略(Meta-strategy):在自我对弈中,指智能体在更高层次上考虑的策略,通常涉及对策略群体的混合或概率分配。