Text-only Synthesis for Image Captioning

2024年05月28日
  • 简介
    本文提出了一种名为ToCa的文本合成图像字幕方法,通过将字幕文本分解为结构和词汇单元,将其作为字幕的基本组成部分,通过将不同的结构和词汇单元组合作为大型语言模型的输入,生成包含各种词汇模式的大量字幕。该方法不仅可以接近目标领域,还可以通过生成新的字幕来超越目标领域,从而增强模型的零样本泛化能力。针对现实世界中不同级别的数据访问,本文定义了三种合成场景:跨领域合成、领域内合成和数据高效合成。在这些场景下的实验表明,ToCa具有良好的泛化性、可转移性和实用性,对于零样本跨领域字幕生成可以提高近5个CIDEr分数,对于数据高效字幕生成可以提高最大20个CIDEr分数。
  • 图表
  • 解决问题
    本文旨在通过Text-only Synthesis for Image Captioning (ToCa)方法,减少人工标注和计算时间,提高图像字幕生成的零样本泛化能力。
  • 关键思路
    将字幕文本分解为结构和词汇单元,通过组合不同的结构和词汇单元作为输入,生成包含各种模式的大量字幕。这种方法不仅接近目标领域,而且通过生成新的字幕,增强了模型的零样本泛化能力。
  • 其它亮点
    ToCa方法在三种不同的合成场景下进行实验,展示了其泛化性、可转移性和实用性。在零样本跨域字幕生成方面,CIDEr指标提高了近5倍,在数据效率上提高了超过20倍的CIDEr。
  • 相关研究
    最近的相关研究包括:1.《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》;2.《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论