查看“WikiEdge:ArXiv-2409.16422”的源代码
←
WikiEdge:ArXiv-2409.16422
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
* '''标题''':Is All Learning (Natural) Gradient Descent? * '''中文标题''':所有的学习都是(自然)梯度下降吗? * '''发布日期''':2024-09-24 19:41:08+00:00 * '''作者''':Lucas Shoji, Kenta Suzuki, Leo Kozachkov * '''分类''':cs.LG, math.DS, q-bio.NC *'''原文链接''':http://arxiv.org/abs/2409.16422v1 '''摘要''':本文表明,一大类有效的学习规则——那些能够在给定时间窗口内提高标量性能度量的规则——可以被重写为关于适当定义的损失函数和度量的自然梯度下降。具体来说,我们表明,这类学习规则中的参数更新可以被表示为一个对称正定矩阵(即,一个度量)和损失函数的负梯度的乘积。我们还证明了这些度量有一个规范形式,并确定了几个最优的度量,包括实现最小可能条件数的度量。主要结果的证明是直接的,只依赖于基础的线性代数和微积分,并且适用于连续时间、离散时间、随机和高阶学习规则,以及明确依赖于时间的损失函数。 == 问题与动机 == 作者的研究问题包括: * 如何证明广泛的有效[[学习规则]]可以被重写为[[自然梯度下降]]? * 在什么样的条件下,这些学习规则可以表示为自然梯度下降的形式? * 如何定义一个合适的[[损失函数]]和度量,使得学习规则可以表示为自然梯度下降? * 这些度量是否具有规范形式,并且能否识别出几个最优的度量? * 如何将这些理论应用于[[连续时间]]、[[离散时间]]、[[随机]]和更高阶的学习规则? * 如何将这些理论应用于显式依赖于时间的损失函数?
返回
WikiEdge:ArXiv-2409.16422
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息