本论文探讨了如何通过帮助机器学习系统克服绑定问题(binding problem),使其具备更接近人类的智能。具体来说,我们希望神经网络能够灵活、动态地表示并关联不同的实体。论文分为两部分。第一部分,我们研究了基于的表示中的归纳偏置;第二部分,我们开发并研究了一种新的表示格式,以解决绑定问题。

我们的主要贡献如下:

提出了摊销因果发现(Amortized Causal Discovery, ACD) [第三章],这是一个全新的因果发现框架,可以在具有不同底层因果图但共享动态的样本之间推断因果关系。我们证明了该方法在完全观察环境下以及在存在噪声和隐藏混杂因素的情况下都能提升性能,并使模型能够推广到之前未见的测试样本。

提出了复杂自编码器(Complex AutoEncoder, CAE) [第四章],这是一种对象发现模型,采用了一种新的对象表示格式。通过在卷积自编码器中引入复数激活,CAE可以通过激活值的幅度来表示对象属性,并通过相位值来表示对象关联。这种无监督方法在简单的多对象数据集上展示了强大的对象发现能力,并且训练速度显著提升。

提出了旋转特征(Rotating Features) [第五章],它是复杂自编码器的扩展,将这一方法从简单的玩具数据扩展到真实数据。为实现这一点,我们提出了三项改进:我们将CAE的复数激活推广到更高维度,介绍了一种新的评估流程,并将预训练特征引入我们的方法中。

提出了一种新颖的余弦绑定机制用于旋转特征 [第六章]。该机制使我们能够更好地理解旋转特征在学习通过对象的方向值来分离对象时所需的动态机制。

论文题目:Learning Structured Representations of Objects and Relations

作者Sindy Löwe

类型:2024年博士论文

学校:Universiteit van Amsterdam(荷兰阿姆斯特丹大学)

下载链接:

链接: https://pan.baidu.com/s/1kF3-g-9P06FiIQZxyRkPRA?pwd=q3ev

硕博论文汇总:

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5


人类智能远远超出了我们的直接经验。我们可以快速掌握不熟悉的概念和句子,理解新情况甚至假设情况下的因果关系,并研究与我们的日常现实完全脱节的复杂现象,例如亚原子粒子或星系的行为。哲学、神经科学和人工智能等各个领域的研究人员都对我们如何实现这一点非常感兴趣。共识是符号思维至关重要。我们在头脑中形成、操纵和关联实体,并在心理上用这些更简单、更抽象的符号来表示我们环境的复杂方面。这使我们能够通过将新情况与熟悉的概念联系起来来理解它们,从而以几乎无限的方式利用我们现有的知识。

神经网络在各种应用中取得了重大进展,但仍未达到人类水平的泛化。它们依赖大量数据和大量计算资源来有效学习。此外,这些系统在分布变化下很脆弱,并且通常缺乏因果推理的能力。以医疗诊断为例,神经网络可以在特定条件下熟练地从医学图像中识别疾病。当面对使用不同成像技术的不同医院的图像时,它们的性能通常会大幅下降。这是因为网络还没有真正了解它们诊断的疾病的底层结构;它们只是识别了它们所训练数据的特定模式。如果这些网络能够理解不同成像技术中常见的解剖和病理特征,它们很可能会在将其诊断能力推广到新环境中方面表现出色。这种对更深入理解的需求凸显了改进神经网络设计的关键途径,使这些系统更接近人类智能的多功能性和适应性。

神经网络面临的限制的核心在于它们专注于处理表面统计数据,而不是理解底层概念;它们无法像人类自然形成和关联符号类实体(如对象)。这主要是由于绑定问题,它描述了动态灵活地组合分布在其架构中的信息的挑战。例如,线性层和卷积层根据其结构和权重路由信息,而这两者在训练后都是固定的。这使得这些层难以可靠地处理以前看不见的特征组合。自注意力机制在训练后更具适应性,因为它们在绑定特征时会考虑当前的激活。尽管如此,它们未能解决训练数据之外的因果问题。增加数据集和模型大小已经产生了令人印象深刻的结果,本质上是通过将网络暴露于更广泛的场景中。然而,这种解决方案暗示了一种详尽而非有效的方法,强调了当前人工智能系统与人类所展现的细致入微、动态智能之间的差距。

克服绑定问题对于神经网络准确表示世界多样性和有效概括至关重要。这一挑战的核心是现实世界呈现的可能组合的指数级爆炸。例如,想象一头粉红色的大象。这需要您灵活地将特征(粉红色和大象)绑定到以前从未见过的组合中。这种能力称为组合泛化,允许模型从看到粉红色火烈鸟和灰色大象的例子推广到识别或想象粉红色大象。同样,克服绑定问题将使在陌生或假设的情况下进行推理成为可能,因为这也需要联合处理实体及其关系,即使这些实体以前没有一起遇到过。要达到这种理解水平,就需要以无监督的方式学习,以创建能够捕捉现实世界所有细微差别和复杂性的表征,例如从一群大象到大象的皮肤等层次结构的所有层级。

总之,绑定问题对在神经网络模型中实现反映人类认知能力的广义智能水平构成了重大障碍。这强调了能够封装和关联抽象符号表示的方法的必要性,以便为更接近人类的理解和适应性铺平道路。

摊销因果发现。我们建议训练一个单一模型,该模型可以预测具有不同底层因果图但共享动态的样本之间的因果关系(左,公式 (3.2))。这使我们能够跨样本进行推广,并通过额外的训练数据提高我们的性能。相比之下,以前的方法(第 3.2 节)为每个具有不同底层因果图的样本拟合一个新模型(右)。

ACD 的概率实现。摊销编码器 qϕ(z|x) 预测输入时间序列 x 之间的因果关系。解码器 pθ(x|z) 学习根据当前值 xt 和预测关系 z 预测时间序列 xt+1 的下一个时间步。因果关系预测和建模之间的这种分离使我们能够跨具有不同底层因果图但共享动态的样本训练模型(公式 (3.2))。

我们提出了复杂自动编码器 (CAE),这是一种简单而有效的对象发现方法,利用自动编码架构中的复值激活。给定一个复值输入,其幅度代表输入图像(左上),其相位设置为固定值(左下),该模型经过训练可以重建输入图像(右上),并学习在无需监督的情况下用相位值表示解开的对象身份(右下)。

时间相关性假设。左图:输入图像包含不同的对象。中图:使用脉冲神经元实现时间相关性假设。它们的脉冲速率表示特征的存在,而它们的同步表示哪些特征应该绑定在一起以共同表示一个对象。右图:使用复值激活实现时间相关性假设。每个复数 z = m · e^(iφ) ∈ C 由其幅度 m 和相位 φ 定义。这允许分别通过幅度和相位值等效地表示特征的存在和同步。

复杂自动编码器、相应的实值自动编码器、DBM 模型和 Slot Attention 模型在 2Shapes(顶部)、3Shapes(中间)和 MNIST&Shape(底部)数据集的随机测试样本上的性能的视觉比较。在评估之前会移除对象重叠的区域,从而导致 CAE 和 DBM 模型的预测中出现黄色区域。复杂自动编码器可实现准确的重建和对象分离。

CAE 中的相位分离。顶部:输出相位图像。底部:在复平面中绘制每个输出值并应用与上图相同的颜色编码。属于各个对象的相位值的聚类质心几乎具有最大距离的相位。有趣的是,对象重叠的区域被分配了中间相位值。

对 CAE 全局旋转等方差的视觉评估。给定具有不同相位值的输入(第 1 行),输出幅度(以及重建)保持不变(第 2/4 行),但输出相位值会相应移动(第 3/4 行)。

旋转特征。我们建议在整个架构中将标准特征扩展一个额外的维度 n,包括输入(以蓝色突出显示,此处 n = 3)。然后,我们在 frot 中设置层结构,使得旋转特征的量级 m 学习表示特征的存在,而它们的方向学习表示对象从属关系。

旋转特征应用于真实世界图像。通过实施一系列改进,我们将连续和分布式对象表示从简单的玩具扩展到真实世界的数据集。

微信群

内容中包含的图片若涉及版权问题,请及时与我们联系删除