VLRM: Vision-Language Models act as Reward Models for Image Captioning

2024年04月02日
  • 简介
    在这项工作中,我们提出了一种无监督的方法来增强图像字幕模型(在我们的情况下是BLIP2),使用强化学习和视觉语言模型(如CLIP和BLIP2-ITM)作为奖励模型。经过RL调整的模型能够生成更长更全面的描述。我们的模型在MS-COCO Carpathy测试分割上达到了惊人的0.90 R@1 CLIP召回得分。权重可在https://huggingface.co/sashakunitsyn/vlrm-blip2-opt-2.7b获得。
  • 图表
  • 解决问题
    本论文旨在使用强化学习和视觉-语言模型来增强图像字幕模型的性能,验证其在生成更长、更全面的描述方面的效果。
  • 关键思路
    该论文使用强化学习和视觉-语言模型作为奖励模型,对图像字幕模型进行优化,从而生成更好的描述。相比当前领域的研究,该论文的思路在于使用奖励模型作为优化目标,从而增强模型的性能。
  • 其它亮点
    论文在MS-COCO Carpathy测试集上获得了0.90 R@1 CLIP Recall得分,实验效果显著。作者提供了模型权重和代码的开源,方便其他研究人员进行进一步研究。
  • 相关研究
    在该领域的相关研究中,近期有一些研究关注于使用强化学习来优化图像字幕模型,如《Reinforcement Learning Based Image Captioning with Embedding Reward》。还有一些研究关注于使用视觉-语言模型来增强图像字幕模型的性能,如《Unified Vision-Language Pre-Training for Image Captioning and VQA》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论