15M Multimodal Facial Image-Text Dataset

简介

目前，图像-文本驱动的多模态深度学习模型已经在许多领域展示出了其出色的潜力。在实践中，围绕面部图像的任务具有广泛的应用前景。本文介绍了一个大规模、多样化、高质量的面部图像数据集——FaceCaption-15M，该数据集包含面部图像及其自然语言描述（面部图像到文本）。这个数据集旨在促进面部任务的研究。FaceCaption-15M包含超过1500万对面部图像和对应的自然语言描述，是迄今为止最大的面部图像-标题数据集。我们对图像质量、文本自然度、文本复杂度和文本-图像相关性进行了全面分析，以证明FaceCaption-15M的优越性。为了验证FaceCaption-15M的有效性，我们首先训练了一种面部语言-图像预训练模型（FLIP，类似于CLIP），将面部图像与其对应的标题在特征空间中进行对齐。随后，使用图像和文本编码器，并仅微调线性层，我们基于FLIP的模型在两个具有挑战性的面部任务上取得了最先进的结果。目的是通过提供所提出的FaceCaption-15M数据集来促进面部相关任务的研究。所有数据、代码和模型都是公开可用的。https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一个大规模的人脸图像-文本数据集FaceCaption-15M，以促进面向人脸任务的研究。该数据集包含超过1500万个人脸图像及其相应的自然语言描述，是迄今为止最大的人脸图像-文本数据集。
关键思路

论文提出了一种基于人脸图像-文本数据集的预训练模型FLIP，该模型使用图像和文本编码器将人脸图像与其相应的描述对齐，然后在两个具有挑战性的面向人脸任务上进行微调，取得了最先进的结果。
其它亮点

该数据集的亮点包括：数据集规模大、多样化、高质量；提出了FLIP预训练模型，能够对齐人脸图像和文本描述；在两个面向人脸任务上取得了最先进的结果。此外，数据、代码和模型都是公开的。
相关研究

在人脸图像-文本领域的相关研究包括：1. Microsoft COCO数据集；2. Flickr30k数据集；3. Visual Genome数据集等。

15M Multimodal Facial Image-Text Dataset

提问交流

提问交流