题目:Unifying Vision-and-Language Tasks via Text Generation 作者:Jaemin Cho ,Jie Lei, Hao Tan, Mohit Bansal 代码: https://github.com/j-min/VL-T5 时间:2021.02 推荐理由: 本文试图用一个统一的语言建模目标来统一不同的多模态任务(主要是“视觉+文本”)。现有的视觉和语言学习方法通常需要为每个任务设计特定的架构和目标。例如,用于视觉问题回答的多标签答案分类器,用于参考表达式理解的区域评分器,以及用于图像字幕的语言解码器等。为了减轻这些单独设计的麻烦,这项工作提出了一个统一的框架,在一个具有相同语言建模目标的单一架构中学习不同的任务,即多模态条件文本生成。
作者所用的统一架构的生成方法能够分别和最先进的vision-and-language模型达到类似的性能。在回答罕见问题时也表现出较好的泛化能力。框架允许在单一体系结构中使用单一参数集进行多任务学习,其性能与单独优化的单任务模型相似。
代码将在https://github.com/j-min/VL-T5公开
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢