- 简介在这项工作中,我们提出了一种无监督的方法来增强图像字幕模型(在我们的情况下是BLIP2),使用强化学习和视觉语言模型(如CLIP和BLIP2-ITM)作为奖励模型。经过RL调整的模型能够生成更长更全面的描述。我们的模型在MS-COCO Carpathy测试分割上达到了惊人的0.90 R@1 CLIP召回得分。权重可在https://huggingface.co/sashakunitsyn/vlrm-blip2-opt-2.7b获得。
- 图表
- 解决问题本论文旨在使用强化学习和视觉-语言模型来增强图像字幕模型的性能,验证其在生成更长、更全面的描述方面的效果。
- 关键思路该论文使用强化学习和视觉-语言模型作为奖励模型,对图像字幕模型进行优化,从而生成更好的描述。相比当前领域的研究,该论文的思路在于使用奖励模型作为优化目标,从而增强模型的性能。
- 其它亮点论文在MS-COCO Carpathy测试集上获得了0.90 R@1 CLIP Recall得分,实验效果显著。作者提供了模型权重和代码的开源,方便其他研究人员进行进一步研究。
- 在该领域的相关研究中,近期有一些研究关注于使用强化学习来优化图像字幕模型,如《Reinforcement Learning Based Image Captioning with Embedding Reward》。还有一些研究关注于使用视觉-语言模型来增强图像字幕模型的性能,如《Unified Vision-Language Pre-Training for Image Captioning and VQA》。
沙发等你来抢
去评论
评论
沙发等你来抢