Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion

简介

识别漫画角色和预测对话者对于漫画处理任务（如语音生成或翻译）至关重要。然而，由于漫画角色因漫画标题而异，因此像训练角色分类器这样的监督学习方法需要为每个漫画标题提供特定注释，这是不可行的。这促使我们提出了一种新颖的零样本方法，使机器能够仅基于未注释的漫画图像识别角色并预测说话者姓名。尽管这些任务在现实应用中非常重要，但由于故事理解和多模态集成的挑战，它们在很大程度上仍未得到探索。最近的大型语言模型（LLM）在文本理解和推理方面表现出了极强的能力，但它们在多模态内容分析方面的应用仍然是一个开放问题。为了解决这个问题，我们提出了一个迭代的多模态框架，这是第一个同时用于角色识别和说话者预测任务的多模态信息的框架。我们的实验证明了所提出的框架的有效性，并为这些任务建立了强大的基线。此外，由于我们的方法不需要训练数据或注释，因此可以直接在任何漫画系列上使用。
图表
解决问题

如何在没有注释的漫画图像上识别角色并预测发言者名称？这是一个新问题吗？
关键思路

提出了一种零样本学习的方法，使用迭代的多模态框架，利用大型语言模型对文本和图像进行联合分析，实现角色识别和发言者预测任务。
其它亮点

论文提出的方法不需要训练数据或注释，适用于任何漫画系列。实验结果表明，该方法有效，为这些任务建立了强大的基准。值得关注的是，该方法是迭代的，可以逐步提高准确性。论文还提供了数据集和代码。
相关研究

最近的相关研究包括使用语言模型和视觉特征进行多模态分析的研究，以及使用零样本学习进行图像分类的研究。

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion

评论