ImageInWords: Unlocking Hyper-Detailed Image Descriptions

2024年05月05日
  • 简介
    尽管有着“一张图片胜过千言万语”的古老格言,但为训练视觉语言模型创造准确且超详细的图片描述仍然具有挑战性。目前的数据集通常具有网络爬取的描述,这些描述短小、低粒度,而且经常包含与视觉内容无关的细节。因此,基于这些数据训练的模型会生成缺失信息、视觉不一致和幻觉的描述。为了解决这些问题,我们介绍了ImageInWords(IIW),这是一个经过精心设计的人为注释框架,用于策划超详细的图片描述,并由此产生了一个新的数据集。我们通过关注可读性、全面性、特定性、幻觉和人类相似性等方面的评估,验证了该框架的有效性和数据集的实用性。与最近发布的数据集(+66%)和GPT-4V输出(+48%)相比,我们的数据集在这些维度上显著提高。此外,使用IIW数据进行微调的模型在同样的人类评估维度上表现出色,比之前的研究提高了31%。鉴于我们微调的模型,我们还评估了文本到图像生成和视觉语言推理。我们的模型描述可以生成最接近原始图像的图像,这是通过自动化和人类度量判断的。我们还发现,我们的模型产生了更具组合性的丰富描述,在ARO、SVO-Probes和Winoground数据集上的表现比最佳基线高出6%。
  • 图表
  • 解决问题
    论文旨在解决训练视觉-语言模型时,图片描述粒度低、缺失信息、存在视觉不一致和幻觉等问题,通过设计一种人机交互注释框架和构建新的数据集来解决这些问题。
  • 关键思路
    论文提出ImageInWords(IIW)注释框架,通过人机交互方式构建超详细的图片描述数据集。与当前数据集相比,IIW数据集在可读性、全面性、具体性、幻觉和人类相似度等方面显著提高(+66%),使用IIW数据集进行微调的模型也在人类评估维度上优于以往工作(+31%)。
  • 其它亮点
    论文提供了一种新的人机交互注释框架和一个超详细的图片描述数据集,该数据集在多个方面显著优于当前数据集和GPT-4V的输出。使用IIW数据集进行微调的模型在多个人类评估维度上表现出色,并且在文本-图像生成和视觉语言推理方面也有良好表现。论文还提供了实验细节、数据集和代码等资源。
  • 相关研究
    最近在这个领域中,也有其他研究关注于改进视觉-语言模型的训练数据。例如,DALL-E和CLIP都是通过大规模的无监督学习来训练视觉-语言模型。另外,还有一些研究关注于改进图像描述生成的质量,如NIC和SCA-CNN。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论