WikiEdge:ArXiv-2408.01072v1/terms

這篇文章的術語表如下：

自我對弈（Self-play）：在強化學習中，自我對弈是指智能體通過與自己的副本或過去的版本進行交互，以優化決策過程的方法。
強化學習（Reinforcement Learning, RL）：一種機器學習範式，通過與環境的交互來優化決策制定過程。
馬爾可夫決策過程（Markov Decision Process, MDP）：一種數學框架，用於描述環境的狀態、動作、轉移和獎勵。
深度強化學習（Deep Reinforcement Learning）：將深度學習與傳統強化學習結合的方法，用於處理高維狀態空間。
多智能體強化學習（Multi-agent Reinforcement Learning, MARL）：在強化學習中考慮多個智能體相互作用的設置。
博弈論（Game Theory）：一種數學理論，用於建模多個決策者之間的交互。
納什均衡（Nash Equilibrium, NE）：一種策略組合，其中每個玩家的策略都是其他玩家策略的最佳響應。
自我對弈算法（Self-play Algorithms）：在自我對弈中使用的算法，用於訓練智能體以提高其在特定任務中的表現。
策略空間響應Oracle（Policy-Space Response Oracle, PSRO）：一種用於自我對弈的算法系列，通過考慮策略空間中的響應來優化智能體的行為。
元策略（Meta-strategy）：在自我對弈中，指智能體在更高層次上考慮的策略，通常涉及對策略群體的混合或概率分配。

導覽菜單