作者:Young-Jun Lee , Byungsoo Ko , Han-Gyu Kim , 等

简介:由于在即时消息中共享图像是一个关键因素,因此人们对学习图像-文本多模式对话模型进行了积极的研究。然而,训练一个泛化良好的多模态对话模型具有挑战性,因为现有的多模态对话数据集包含少量数据、有限的主题以及每个对话的图像种类有限。在本文中,作者提出了一种多模态对话数据集创建流程,该流程涉及基于 CLIP 相似性将大规模图像与对话进行匹配。使用这个自动管道,作者提出了一个大规模的多模态对话数据集 DialogCC,它涵盖了不同的现实世界主题和每个对话的不同图像。通过大量实验、作者证明了使用作者的数据集训练多模态对话模型可以提高泛化性能。此外,使用作者的数据集训练的现有模型在图像和文本检索任务上实现了最先进的性能。 

论文下载:https://arxiv.org/pdf/2212.04119.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除