Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion

2024年04月22日
  • 简介
    识别漫画中的角色和预测对话的说话者对于语音生成或翻译等漫画处理任务至关重要。然而,由于漫画标题不同,监督式学习方法,如训练角色分类器,需要针对每个漫画标题进行特定注释,因此是不可行的。这促使我们提出了一种新颖的零样本方法,允许机器仅基于未注释的漫画图像识别角色并预测说话者名称。尽管这些任务在现实世界的应用中非常重要,但由于故事理解和多模态集成的挑战,它们在很大程度上仍未被探索。最近的大型语言模型(LLMs)已经展示了很强的文本理解和推理能力,但它们在多模态内容分析方面的应用仍然是一个开放的问题。为了解决这个问题,我们提出了一个迭代的多模态框架,它是第一个同时用于角色识别和说话者预测任务的多模态信息的框架。我们的实验证明了所提出的框架的有效性,为这些任务建立了一个强大的基线。此外,由于我们的方法不需要训练数据或注释,因此可以直接在任何漫画系列上使用。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提出一种零样本学习的方法,通过仅使用未注释的漫画图像来识别漫画角色和预测演讲者名称,解决了基于具体注释的监督学习方法在不同漫画系列中不适用的问题。
  • 关键思路
    论文提出了一种迭代的多模态框架,首次将多模态信息应用于角色识别和演讲者预测任务中,通过利用最近的大型语言模型(LLM)来实现文本理解和推理,同时处理多模态内容分析的问题。
  • 其它亮点
    论文的实验结果表明,所提出的框架非常有效,并为这些任务建立了一个强大的基准。此外,由于该方法不需要训练数据或注释,因此可以直接用于任何漫画系列。
  • 相关研究
    最近的相关研究包括:'Zero-shot Learning for Text-Based Emotion Recognition in Comics','Visual Relationship Detection with Language Priors: Learning to Parse Images in Natural Language','Multimodal Machine Learning: A Survey and Taxonomy'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问