- 简介本文旨在促进漫画的无障碍性,因其本质上是视觉性的,因此使视力受损的人参与其中是一个重大挑战。为了实现这一目标,本文旨在完全自动地生成一个完整漫画章节的对话文本,并特别强调确保叙述的连贯性。这包括识别(i)正在说什么,即检测每一页上的文本并将其分类为必要和非必要的,以及(ii)谁在说,即将每个对话归属到其说话者,并确保在整个章节中使用相同的角色名称。为此,我们引入了:(i)Magiv2,一个能够生成高质量的整章漫画对话文本的模型,具有命名的角色和比以前更高的说话者分离精度;(ii)扩展了PopManga评估数据集,现在包括对话框尾部框的注释,将文本与相应的框尾关联,将文本分类为必要或非必要,并为每个角色框提供身份信息;以及(iii)一个新的角色库数据集,包括来自76个漫画系列的超过11K个角色,总共有11.5K个示例角色图像,以及它们出现的章节列表。代码、训练模型和两个数据集可以在以下网址找到:https://github.com/ragavsachdeva/magi。
- 图表
- 解决问题本论文旨在解决视觉障碍者阅读漫画的可访问性问题,通过自动化生成对话文本的方式实现。具体而言,需要识别每一页上的文本并将其分类为必要或非必要,同时将每个对话归属于其说话者,并确保整个章节中的角色名字一致。
- 关键思路本论文提出了Magiv2模型,能够生成高质量的漫画章节对话文本,具有更高的说话者分离精度。同时,还扩展了PopManga评估数据集,增加了对话框尾部框的注释、文本与对应框尾的关联、文本的必要性分类以及每个角色框的身份。此外,还提供了一个包含超过11K个角色的新数据集,包括76个漫画系列中的11.5K个样本角色图像以及它们出现的章节列表。
- 其它亮点本论文的实验设计包括了使用扩展的数据集进行训练和测试,同时提供了开源代码和数据集。值得关注的是,Magiv2模型具有更高的说话者分离精度,扩展的PopManga评估数据集为研究提供了更多的标注信息,新的角色库数据集也为研究提供了更多的角色图像和身份信息。
- 在相关研究方面,最近也有一些研究关注于漫画文本的自动化生成,如《Generating Manga Texts with Speech Bubbles》和《Generating Manga-Style Comics via Co-Clustering of Scene Graphs and Text》等。
沙发等你来抢
去评论
评论
沙发等你来抢