查看“WikiEdge:ArXiv-1711.08028”的源代码

* '''标题'''：Recurrent Relational Networks
* '''中文标题'''：循环关系网络
* '''发布日期'''：2017-11-21 20:34:48+00:00
* '''作者'''：Rasmus Berg Palm, Ulrich Paquet, Ole Winther
* '''分类'''：cs.AI
*'''原文链接'''：http://arxiv.org/abs/1711.08028v4
'''摘要'''：本文主要研究如何学习解决需要一系列相互依赖的关系推理步骤的任务，例如回答有关对象之间关系的复杂问题，或解决其中解决方案的较小元素相互约束的谜题。我们引入了循环关系网络，这是一个通用模块，可以在对象的图形表示上进行操作。作为Santoro等人[2017]的关系网络的泛化，它可以增强任何神经网络模型的多步关系推理能力。我们在bAbI文本问题回答数据集上使用循环关系网络，取得了最新的结果，稳定解决了20/20的任务。由于bAbI在关系推理方面并不特别具有挑战性，我们引入了Pretty-CLEVR，这是一个新的关系推理诊断数据集。在Pretty-CLEVR的设置中，我们可以改变问题以控制获取答案所需的关系推理步骤的数量。使用Pretty-CLEVR，我们探索了多层感知器、关系和循环关系网络的限制。最后，我们展示了如何使用监督训练数据让循环关系网络学习解决数独难题，这是一个需要超过64步关系推理的挑战性任务。我们在相似方法中取得了最新的结果，解决了96.6%的最难数独难题。

== 问题与动机 ==
作者的研究问题包括：
* 如何构建一个能够进行多步[[关系推理]]的[[神经网络模型]]？
* 如何在不同的[[数据集]]上验证提出的模型是否能够实现多步关系推理？
* 如何在复杂的任务（如[[数独]]解谜）中应用提出的模型，并与现有方法比较其性能？

== 背景介绍 ==
这篇文献的背景主要集中在以下几个方面：
# '''复杂问题解决的挑战'''：
#* 解决如[[数独]]等复杂问题需要进行多步的推理，传统的[[多层感知器]]（MLP）和[[卷积神经网络]]（CNN）在这类问题上表现不佳。
#* 这些[[深度学习]]方法通常在单次前向传播中输出整个解决方案，忽略了对象间相互影响的一致性。
# '''关系推理的引入'''：
#* [[Santoro]]等人提出的[[关系网络]]是朝向能够推理对象及其交互的简单模块的重要步骤，但它仅限于执行单一的关系操作。
#* 现有的模型在需要超过三步推理的数据集上表现不佳，这表明需要更复杂的关系推理能力。
# '''递归关系网络的提出'''：
#* 本文提出了[[递归关系网络]]（RRN），它是一个通用模块，能够在图表示的对象上操作，增强了神经网络模型进行多步关系推理的能力。
#* 递归关系网络通过在每一步最小化输出和目标分布之间的[[交叉熵]]，学习了一个收敛的消息传递算法，有助于解决[[梯度消失问题]]，并提高了模型的稳定性。
# '''实验验证'''：
#* 通过在[[bAbI]]文本问答数据集上的实验，递归关系网络在所有20个任务上达到了最先进的结果。
#* 为了测试模型在需要更多推理步骤的任务上的表现，作者创建了[[Pretty-CLEVR]]数据集，并使用它来探究[[多层感知器]]、[[关系网络]]和[[递归关系网络]]的局限性。
#* 此外，作者还展示了递归关系网络如何通过监督训练数据学习解决[[数独]]难题，这是一个需要超过64步关系推理的挑战性任务。
综上所述，这篇文献的背景强调了在解决需要复杂关系推理的任务中，[[递归关系网络]]作为一种新型的[[深度学习]]模型，其在多个数据集上展现出的潜力和有效性。

== 章节摘要 ==
这篇论文是关于学习解决需要一系列相互依赖的关系[[推理]]步骤的任务的研究，主要内容包括：
# '''引言'''：
#* 强调了[[人类智能]]中抽象推理对象及其交互的能力，例如解决[[数独]]。
#* 对比了传统[[深度学习]]方法（如[[多层感知器]]和[[卷积神经网络]])与[[关系网络]]。
#* 介绍了递归关系网络（[[Recurrent Relational Network]], RRN），一种用于多步关系推理的通用模块。

# '''递归关系网络'''：
#* 以解决数独谜题为例，解释了RRN如何在[[图表示]]上操作。
#* 描述了[[消息传递]]在图上的过程，包括节点如何发送和更新消息。
#* 介绍了[[监督训练]]的方法，包括[[损失函数]]的定义和收敛消息传递的重要性。

# '''实验'''：
#* 在[[bAbI]]文本问答数据集上实现了最先进的结果，解决了所有20个任务。
#* 引入了[[Pretty-CLEVR]]数据集，用于诊断关系推理。
#* 使用Pretty-CLEVR评估了多层感知器、关系网络和递归关系网络的局限性。
#* 展示了RRN如何通过监督训练数据学习解决数独谜题，并在最难的数独问题上达到了96.6%的解决率。

# '''讨论'''：
#* 提出了一种通用的关系推理模型，能够解决比当前技术更复杂的关系推理任务。
#* 讨论了在每一步都有损失函数可能带来的问题，以及模型如何避免陷入[[局部最小值]]。
#* 强调了模型的非贪婪多步算法的能力。

# '''相关工作'''：
#* 比较了关系网络和[[交互网络]]等现有模型与本文提出的模型。
#* 讨论了[[图神经网络]]和消息传递算法的相关文献。
#* 提到了将符号推理与亚符号分布式表示结合的方法。
#* 简要介绍了[[OptNet]]和[[CommNet]]等其他相关工作。