查看“WikiEdge:ArXiv-2408.01072v1/terms”的源代码
←
WikiEdge:ArXiv-2408.01072v1/terms
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.01072v1/terms|action=edit}} 编辑]</div> 这篇文章的术语表如下: * [[自我对弈]](Self-play):在[[强化学习]]中,自我对弈是指智能体通过与自己的副本或过去的版本进行交互,以优化决策过程的方法。 * [[强化学习]](Reinforcement Learning, RL):一种机器学习范式,通过与环境的交互来优化决策制定过程。 * [[马尔可夫决策过程]](Markov Decision Process, MDP):一种数学框架,用于描述环境的状态、动作、转移和奖励。 * [[深度强化学习]](Deep Reinforcement Learning):将深度学习与传统强化学习结合的方法,用于处理高维状态空间。 * [[多智能体强化学习]](Multi-agent Reinforcement Learning, MARL):在强化学习中考虑多个智能体相互作用的设置。 * [[博弈论]](Game Theory):一种数学理论,用于建模多个决策者之间的交互。 * [[纳什均衡]](Nash Equilibrium, NE):一种策略组合,其中每个玩家的策略都是其他玩家策略的最佳响应。 * [[自我对弈算法]](Self-play Algorithms):在自我对弈中使用的算法,用于训练智能体以提高其在特定任务中的表现。 * [[策略空间响应Oracle]](Policy-Space Response Oracle, PSRO):一种用于自我对弈的算法系列,通过考虑策略空间中的响应来优化智能体的行为。 * [[元策略]](Meta-strategy):在自我对弈中,指智能体在更高层次上考虑的策略,通常涉及对策略群体的混合或概率分配。
返回
WikiEdge:ArXiv-2408.01072v1/terms
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息