Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

2024年04月30日
  • 简介
    现有的视觉内容自动字幕方法面临着缺乏细节、内容幻觉和指令跟随差的挑战。在这项工作中,我们提出了VisualFactChecker(VFC),这是一个灵活的无需训练的流程,可为2D图像和3D对象生成高保真度和详细的字幕。VFC包括三个步骤:1)建议,其中图像到文本字幕模型提出多个初始字幕;2)验证,其中大型语言模型(LLM)利用诸如物体检测和VQA模型等工具来核实提出的字幕;3)字幕,其中LLM通过总结字幕建议和事实核查验证结果生成最终字幕。在这一步中,VFC可以灵活地按照复杂的指令以各种风格生成字幕。我们使用四个指标进行了全面的字幕评估:1)用于图像-文本相似性的CLIP-Score;2)用于测量使用字幕生成的文本到图像模型生成的原始图像和重构图像之间的图像-图像相似性的CLIP-Image-Score;3)在Amazon Mechanical Turk上进行的人类研究;4)用于精细评估的GPT-4V。评估结果表明,VFC在COCO数据集上的2D图像和Objaverse数据集上的3D资产的字幕制作方面优于最先进的开源字幕制作方法。我们的研究表明,通过将开源模型组合成流程,我们可以获得可与专有模型(如GPT-4V)相媲美的字幕制作能力,尽管模型大小只有其10倍左右。
  • 图表
  • 解决问题
    论文旨在解决自动图像描述方法中存在的缺乏细节、内容幻觉和指令遵循能力差等问题,提出了一种新的灵活的训练免费的流水线方法,能够为2D图像和3D物体生成高保真度和详细的描述。
  • 关键思路
    论文提出的VisualFactChecker(VFC)方法包括三个步骤:提议、验证和描述。其中,大型语言模型(LLM)利用对象检测和VQA模型对提议的描述进行事实检查,然后生成最终描述。VFC方法能够灵活地生成不同风格的描述,遵循复杂的指令。
  • 其它亮点
    论文使用了四种评估指标对VFC方法进行了全面评估,结果表明,在COCO数据集上,VFC方法优于目前开源的2D图像描述方法,而在Objaverse数据集上,VFC方法也优于目前的3D图像描述方法。此外,论文提出的方法比GPT-4V等专有模型小10倍以上。
  • 相关研究
    近期在这个领域中的相关研究包括:1.《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》;2.《Bottom-Up and Top-Down Attention for Image Captioning and VQA》;3.《Neural Image Caption Generation with Visual and Semantic Alignments》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论