Self-supervised Photographic Image Layout Representation Learning

简介

在图像布局表示学习领域中，将图像布局转化为简洁的向量形式的关键过程在各种应用中变得越来越重要，如图像检索、操作和生成。该领域中的大多数方法严重依赖于昂贵的标记数据集，并且明显缺乏将其建模和学习方法适应于摄影图像布局的特定细微差别。这一不足使得摄影图像布局的学习过程不够优化。在我们的研究中，我们直接解决了这些挑战。我们通过定义基本的布局基元来创新，这些基元封装了各种级别的布局信息，并将它们及其相互连接映射到异构图结构上。这个图被精心设计来明确地捕捉像素域内复杂的布局信息。进一步发展，我们引入了新的预文本任务和定制的损失函数，为有效的自监督学习这些布局图设计策略。在此基础上，我们开发了一种基于自编码器的网络架构，可以将这些异构布局图压缩成精确的、维度降低的布局表示。此外，我们还介绍了LODB数据集，该数据集具有更广泛的布局类别和更丰富的语义，是评估布局表示学习方法有效性的全面基准。我们在这个数据集上进行了广泛的实验，证明了我们的方法在摄影图像布局表示学习领域的优越性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决将图像布局转换为简洁向量形式的问题，在图像检索、操作和生成等应用中具有重要意义。现有方法在建模和学习方法上缺乏对摄影图像布局的特定细节的适应性，需要昂贵的标记数据集。
关键思路

本文通过定义基本布局基元并将其与其相互连接的异构图映射，以及自监督学习的新典范任务和定制的损失函数，实现了对图像布局的有效学习。
其它亮点

本文提出了一个新的异构图结构，旨在明确捕捉像素域内的复杂布局信息。此外，还引入了一个新的数据集LODB，用于评估布局表示学习方法的有效性。
相关研究

在相关研究方面，最近的工作集中在使用神经网络进行图像布局表示学习。例如，Deep Layout Decomposition和LayoutGAN。

Self-supervised Photographic Image Layout Representation Learning

提问交流

提问交流