VLRM: Vision-Language Models act as Reward Models for Image Captioning

简介

在这项工作中，我们提出了一种无监督的方法来增强图像字幕模型（在我们的情况下是BLIP2），使用强化学习和视觉语言模型（如CLIP和BLIP2-ITM）作为奖励模型。经过RL调整的模型能够生成更长更全面的描述。我们的模型在MS-COCO Carpathy测试分割上达到了惊人的0.90 R@1 CLIP召回得分。权重可在https://huggingface.co/sashakunitsyn/vlrm-blip2-opt-2.7b获得。
图表
解决问题

本论文旨在使用强化学习和视觉-语言模型来增强图像字幕模型的性能，验证其在生成更长、更全面的描述方面的效果。
关键思路

该论文使用强化学习和视觉-语言模型作为奖励模型，对图像字幕模型进行优化，从而生成更好的描述。相比当前领域的研究，该论文的思路在于使用奖励模型作为优化目标，从而增强模型的性能。
其它亮点

论文在MS-COCO Carpathy测试集上获得了0.90 R@1 CLIP Recall得分，实验效果显著。作者提供了模型权重和代码的开源，方便其他研究人员进行进一步研究。
相关研究

在该领域的相关研究中，近期有一些研究关注于使用强化学习来优化图像字幕模型，如《Reinforcement Learning Based Image Captioning with Embedding Reward》。还有一些研究关注于使用视觉-语言模型来增强图像字幕模型的性能，如《Unified Vision-Language Pre-Training for Image Captioning and VQA》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论