15M Multimodal Facial Image-Text Dataset

简介

目前，基于图像和文本的多模态深度学习模型在许多领域展示了出色的潜力。在实践中，以面部图像为中心的任务具有广泛的应用前景。本文介绍了一个大规模、多样化、高质量的面部图像数据集FaceCaption-15M，该数据集包括面部图像及其自然语言描述（面部图像到文本）。该数据集旨在促进面部任务的研究。FaceCaption-15M包括超过1500万对面部图像和相应的自然语言面部特征描述，是迄今为止最大的面部图像-字幕数据集。我们对图像质量、文本自然性、文本复杂性和文本-图像相关性进行了全面分析，以展示FaceCaption-15M的优越性。为了验证FaceCaption-15M的有效性，我们首先训练了一个面部语言-图像预训练模型（FLIP，类似于CLIP）来在特征空间中对齐面部图像和相应的字幕。随后，使用图像和文本编码器，只微调线性层，我们基于FLIP的模型在两个具有挑战性的面部任务上取得了最先进的结果。这个目的是通过提供所提出的FaceCaption-15M数据集来促进面向任务领域的研究。所有数据、代码和模型都是公开可用的。https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提供一个大规模、多样化、高质量的人脸图像-文本数据集，以促进人脸相关任务的研究。
关键思路

FaceCaption-15M数据集是目前最大的人脸图像-文本数据集，论文提出了一种基于FLIP的预训练模型，通过fine-tuning线性层，取得了两个人脸相关任务的最新成果。
其它亮点

FaceCaption-15M数据集包含超过15百万对人脸图像及其相应的自然语言描述，数据集的质量经过全面的分析得到验证。论文提供了数据、代码和模型的公开资源。实验设计合理，FLIP模型在两个人脸相关任务上取得了最新的最佳成果。
相关研究

在最近的相关研究中，也有一些关于人脸图像-文本数据集的研究，例如Flickr-Faces-HQ、CelebA、VGGFace2等。

15M Multimodal Facial Image-Text Dataset

提问交流

提问交流