WikiEdge:ArXiv-2409.16422

标题：Is All Learning (Natural) Gradient Descent?
中文标题：所有的学习都是（自然）梯度下降吗？
发布日期：2024-09-24 19:41:08+00:00
作者：Lucas Shoji, Kenta Suzuki, Leo Kozachkov
分类：cs.LG, math.DS, q-bio.NC
原文链接：http://arxiv.org/abs/2409.16422v1

摘要：本文表明，一大类有效的学习规则——那些能够在给定时间窗口内提高标量性能度量的规则——可以被重写为关于适当定义的损失函数和度量的自然梯度下降。具体来说，我们表明，这类学习规则中的参数更新可以被表示为一个对称正定矩阵（即，一个度量）和损失函数的负梯度的乘积。我们还证明了这些度量有一个规范形式，并确定了几个最优的度量，包括实现最小可能条件数的度量。主要结果的证明是直接的，只依赖于基础的线性代数和微积分，并且适用于连续时间、离散时间、随机和高阶学习规则，以及明确依赖于时间的损失函数。

问题与动机

作者的研究问题包括：

如何证明广泛的有效学习规则可以被重写为自然梯度下降？
在什么样的条件下，这些学习规则可以表示为自然梯度下降的形式？
如何定义一个合适的损失函数和度量，使得学习规则可以表示为自然梯度下降？
这些度量是否具有规范形式，并且能否识别出几个最优的度量？
如何将这些理论应用于连续时间、离散时间、随机和更高阶的学习规则？
如何将这些理论应用于显式依赖于时间的损失函数？

WikiEdge:ArXiv-2409.16422

问题与动机

导航菜单

搜索