WikiEdge:ArXiv-2408.01072v1/terms
跳至導覽
跳至搜尋
這篇文章的術語表如下:
- 自我對弈(Self-play):在強化學習中,自我對弈是指智能體通過與自己的副本或過去的版本進行交互,以優化決策過程的方法。
- 強化學習(Reinforcement Learning, RL):一種機器學習範式,通過與環境的交互來優化決策制定過程。
- 馬爾可夫決策過程(Markov Decision Process, MDP):一種數學框架,用於描述環境的狀態、動作、轉移和獎勵。
- 深度強化學習(Deep Reinforcement Learning):將深度學習與傳統強化學習結合的方法,用於處理高維狀態空間。
- 多智能體強化學習(Multi-agent Reinforcement Learning, MARL):在強化學習中考慮多個智能體相互作用的設置。
- 博弈論(Game Theory):一種數學理論,用於建模多個決策者之間的交互。
- 納什均衡(Nash Equilibrium, NE):一種策略組合,其中每個玩家的策略都是其他玩家策略的最佳響應。
- 自我對弈算法(Self-play Algorithms):在自我對弈中使用的算法,用於訓練智能體以提高其在特定任務中的表現。
- 策略空間響應Oracle(Policy-Space Response Oracle, PSRO):一種用於自我對弈的算法系列,通過考慮策略空間中的響應來優化智能體的行為。
- 元策略(Meta-strategy):在自我對弈中,指智能體在更高層次上考慮的策略,通常涉及對策略群體的混合或概率分配。