Multimodal Transformer for Comics Text-Cloze

2024年03月06日
  • 简介
    本研究探讨了漫画中的一个闭合任务,这是一种视觉和文本元素交织在一起的媒介。具体来说,文本填空是指在给定相邻面板的情况下,选择正确的文本来使用在漫画面板中的任务。传统的基于循环神经网络的方法由于OCR准确性有限和固有的模型限制而在这个任务中遇到了困难。我们引入了一种新颖的多模态大语言模型(Multimodal-LLM)架构,专门设计用于文本填空,在其易和难的变体中实现了比现有最先进模型高10%的改进。我们的方法的核心是一个基于Domain-Adapted ResNet-50的视觉编码器,通过SimCLR自监督方式在漫画领域进行微调。这个编码器仅使用五分之一的参数就可以提供与更复杂模型相当的结果。此外,我们为这个数据集发布了新的OCR注释,提高了模型的输入质量,结果又提高了1%。最后,我们将任务扩展到生成格式,建立了新的基线,并扩展了漫画分析领域的研究可能性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文解决的问题是在漫画中进行文本填空任务,即给定相邻的漫画面板,选择正确的文本。这是一个相对较新的问题。
  • 关键思路
    论文提出了一种新的多模态大型语言模型(Multimodal-LLM)架构,专门针对文本填空任务。其中,基于领域自适应的ResNet-50视觉编码器通过SimCLR进行自监督微调,可以用较少的参数达到与更复杂模型相当的效果。
  • 其它亮点
    值得关注的地方包括:1.使用自监督学习的方法对视觉编码器进行微调,提高了模型性能;2.新的OCR标注数据集进一步提高了模型的输入质量;3.扩展任务到生成格式,建立了新的基线,拓展了漫画分析领域的研究可能性。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《A Dataset and Architecture for Visual Reasoning with a Working Memory》;2.《Comic Strip Understanding with Convolutional Neural Networks》;3.《A Hierarchical Approach for Generating Comic Dialogue》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问