What If We Recaption Billions of Web Images with LLaMA-3?

2024年06月12日
  • 简介
    网络爬取的图像文本对本质上带有噪声。先前的研究表明,通过语义对齐和丰富这些对的文本描述,可以显著增强各种视觉语言任务的模型训练,特别是文本到图像生成。然而,在这个领域进行的大规模调查仍然主要是闭源的。我们的论文旨在搭建这个社区的努力,利用强大且开源的LLaMA-3(一个GPT-4级别的LLM)。我们的重新描述流水线很简单:首先,我们对由LLaMA-3-8B驱动的LLaVA-1.5进行微调,然后使用它来重新描述DataComp-1B数据集中的13亿张图像。我们的实证结果证实,这个增强的数据集Recap-DataComp-1B在训练先进的视觉语言模型方面提供了实质性的好处。对于像CLIP这样的判别模型,我们观察到在跨模态检索任务中增强了零样本性能。对于像文本到图像扩散变换这样的生成模型,生成的图像在与用户的文本指令对齐方面有显著的改进,特别是在遵循复杂查询时。我们的项目页面是https://www.haqtu.me/Recap-Datacomp-1B/。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决图像-文本对数据集中文本描述的噪声问题,提出了一种基于LLaMA-3的重新描述方法,旨在提高视觉-语言任务的模型训练效果。
  • 关键思路
    本论文的关键思路是使用LLaMA-3对数据集中的图像进行重新描述,以提高视觉-语言模型的训练效果。相较于现有的研究,本论文的创新点在于使用了开源的LLaMA-3模型,可以提高数据集的语义对齐和文本描述的丰富性。
  • 其它亮点
    本论文使用开源的LLaMA-3模型对DataComp-1B数据集中的1.3亿张图像进行重新描述,生成了一个名为Recap-DataComp-1B的增强数据集。实验结果表明,该数据集可以提高视觉-语言模型的训练效果,并且可以提高CLIP模型的零样本性能和text-to-image Diffusion Transformers生成图像的对齐性。本论文的工作还开源了代码,并提供了项目页面。
  • 相关研究
    在该领域的相关研究包括:1)使用GAN生成图像的文本描述;2)使用多模态学习方法提高视觉-语言模型的训练效果;3)使用BERT等预训练模型进行文本描述的改进。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问