WikiEdge:ArXiv-2409.16422:修订间差异

来自WikiEdge
跳转到导航 跳转到搜索
David留言 | 贡献
Saved page by David
 
David留言 | 贡献
Updated page by David
第6行: 第6行:
*'''原文链接''':http://arxiv.org/abs/2409.16422v1
*'''原文链接''':http://arxiv.org/abs/2409.16422v1
'''摘要''':本文表明,一大类有效的学习规则——那些能够在给定时间窗口内提高标量性能度量的规则——可以被重写为关于适当定义的损失函数和度量的自然梯度下降。具体来说,我们表明,这类学习规则中的参数更新可以被表示为一个对称正定矩阵(即,一个度量)和损失函数的负梯度的乘积。我们还证明了这些度量有一个规范形式,并确定了几个最优的度量,包括实现最小可能条件数的度量。主要结果的证明是直接的,只依赖于基础的线性代数和微积分,并且适用于连续时间、离散时间、随机和高阶学习规则,以及明确依赖于时间的损失函数。
'''摘要''':本文表明,一大类有效的学习规则——那些能够在给定时间窗口内提高标量性能度量的规则——可以被重写为关于适当定义的损失函数和度量的自然梯度下降。具体来说,我们表明,这类学习规则中的参数更新可以被表示为一个对称正定矩阵(即,一个度量)和损失函数的负梯度的乘积。我们还证明了这些度量有一个规范形式,并确定了几个最优的度量,包括实现最小可能条件数的度量。主要结果的证明是直接的,只依赖于基础的线性代数和微积分,并且适用于连续时间、离散时间、随机和高阶学习规则,以及明确依赖于时间的损失函数。
== 问题与动机 ==
作者的研究问题包括:
* 如何证明广泛的有效[[学习规则]]可以被重写为[[自然梯度下降]]?
* 在什么样的条件下,这些学习规则可以表示为自然梯度下降的形式?
* 如何定义一个合适的[[损失函数]]和度量,使得学习规则可以表示为自然梯度下降?
* 这些度量是否具有规范形式,并且能否识别出几个最优的度量?
* 如何将这些理论应用于[[连续时间]]、[[离散时间]]、[[随机]]和更高阶的学习规则?
* 如何将这些理论应用于显式依赖于时间的损失函数?

2024年9月26日 (四) 07:38的版本

  • 标题:Is All Learning (Natural) Gradient Descent?
  • 中文标题:所有的学习都是(自然)梯度下降吗?
  • 发布日期:2024-09-24 19:41:08+00:00
  • 作者:Lucas Shoji, Kenta Suzuki, Leo Kozachkov
  • 分类:cs.LG, math.DS, q-bio.NC
  • 原文链接http://arxiv.org/abs/2409.16422v1

摘要:本文表明,一大类有效的学习规则——那些能够在给定时间窗口内提高标量性能度量的规则——可以被重写为关于适当定义的损失函数和度量的自然梯度下降。具体来说,我们表明,这类学习规则中的参数更新可以被表示为一个对称正定矩阵(即,一个度量)和损失函数的负梯度的乘积。我们还证明了这些度量有一个规范形式,并确定了几个最优的度量,包括实现最小可能条件数的度量。主要结果的证明是直接的,只依赖于基础的线性代数和微积分,并且适用于连续时间、离散时间、随机和高阶学习规则,以及明确依赖于时间的损失函数。

问题与动机

作者的研究问题包括:

  • 如何证明广泛的有效学习规则可以被重写为自然梯度下降
  • 在什么样的条件下,这些学习规则可以表示为自然梯度下降的形式?
  • 如何定义一个合适的损失函数和度量,使得学习规则可以表示为自然梯度下降?
  • 这些度量是否具有规范形式,并且能否识别出几个最优的度量?
  • 如何将这些理论应用于连续时间离散时间随机和更高阶的学习规则?
  • 如何将这些理论应用于显式依赖于时间的损失函数?