What If We Recaption Billions of Web Images with LLaMA-3?

2024年06月12日
  • 简介
    网络爬取的图像文本对本质上是有噪声的。先前的研究表明,通过语义对齐和丰富这些对的文本描述,可以显著增强各种视觉语言任务的模型训练,特别是文本到图像生成。然而,这一领域的大规模研究仍然主要是闭源的。我们的论文旨在搭建这个社区努力的桥梁,利用强大且开源的 LLaMA-3,一个类似于 GPT-4 级别的 LLM。我们的重新字幕生成流程很简单:首先,我们微调一个由 LLaMA-3-8B 驱动的 LLaVA-1.5,然后使用它对 DataComp-1B 数据集中的 13 亿张图像进行重新字幕生成。我们的实证结果证实,这个增强的数据集 Recap-DataComp-1B 在训练先进的视觉语言模型方面提供了实质性的好处。对于像 CLIP 这样的判别模型,我们观察到在跨模态检索任务中的零样本性能得到了提高。对于像文本到图像扩散变压器这样的生成模型,生成的图像在与用户的文本指令对齐方面有显著的改进,特别是在遵循复杂查询方面。我们的项目页面是 https://www.haqtu.me/Recap-Datacomp-1B/。
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图通过对图像文本对进行语义对齐和丰富化来提高视觉语言任务的模型训练效果,特别是文本到图像生成任务。同时,该论文还尝试在开源的LLaMA-3模型基础上构建一个简单的重标注流水线,以生成一个更强大的数据集。
  • 关键思路
    论文的关键思路是使用开源的LLaMA-3模型进行语义对齐和丰富化,然后通过重标注流水线生成一个更强大的数据集Recap-DataComp-1B,以提高视觉语言任务的模型训练效果。这个流程包括使用LLaMA-3-8B来微调LLaVA-1.5模型,然后使用该模型对DataComp-1B数据集中的13亿幅图像进行重标注。
  • 其它亮点
    该论文的亮点包括使用开源的LLaMA-3模型进行语义对齐和丰富化,然后通过重标注流水线生成一个更强大的数据集Recap-DataComp-1B,以提高视觉语言任务的模型训练效果。实验结果表明,使用Recap-DataComp-1B数据集可以提高视觉语言模型的性能,特别是在零样本跨模态检索任务和文本到图像Diffusion Transformers生成任务中。此外,该论文还提供了开源代码和数据集,以促进该领域的进一步研究。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《DALL-E: Creating Images from Text》、《CLIP: Connecting Text and Images》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问