WikiEdge:ArXiv-2408.01072v1/terms

出自WikiEdge
跳至導覽 跳至搜尋
編輯

這篇文章的術語表如下:

  • 自我對弈(Self-play):在強化學習中,自我對弈是指智能體通過與自己的副本或過去的版本進行交互,以優化決策過程的方法。
  • 強化學習(Reinforcement Learning, RL):一種機器學習範式,通過與環境的交互來優化決策制定過程。
  • 馬爾可夫決策過程(Markov Decision Process, MDP):一種數學框架,用於描述環境的狀態、動作、轉移和獎勵。
  • 深度強化學習(Deep Reinforcement Learning):將深度學習與傳統強化學習結合的方法,用於處理高維狀態空間。
  • 多智能體強化學習(Multi-agent Reinforcement Learning, MARL):在強化學習中考慮多個智能體相互作用的設置。
  • 博弈論(Game Theory):一種數學理論,用於建模多個決策者之間的交互。
  • 納什均衡(Nash Equilibrium, NE):一種策略組合,其中每個玩家的策略都是其他玩家策略的最佳響應。
  • 自我對弈算法(Self-play Algorithms):在自我對弈中使用的算法,用於訓練智能體以提高其在特定任務中的表現。
  • 策略空間響應Oracle(Policy-Space Response Oracle, PSRO):一種用於自我對弈的算法系列,通過考慮策略空間中的響應來優化智能體的行為。
  • 元策略(Meta-strategy):在自我對弈中,指智能體在更高層次上考慮的策略,通常涉及對策略群體的混合或概率分配。