- 简介漫画领域随着单页分析和综合模型的发展而快速进步。然而,评估指标和数据集落后,通常仅限于小规模或单一风格的测试集。我们引入了一个新的基准数据集CoMix,旨在评估漫画分析模型的多任务能力。与现有基准数据集专注于孤立的任务(如物体检测或文本识别)不同,CoMix涵盖了更广泛的任务范围,包括物体检测、说话者识别、角色再识别、阅读顺序以及多模态推理任务,如角色命名和对话生成。我们的基准数据集包括三个现有数据集,扩展了注释以支持多任务评估。为了缓解漫画风格数据的过度呈现,我们还加入了一个精心挑选的美国漫画风格书籍的新数据集,从而丰富了漫画风格的多样性。CoMix旨在评估预训练模型在零样本和有限微调设置下的转移能力,探究它们在不同漫画风格和任务之间的转移能力。基准数据集的验证集可供研究目的公开使用,同时还提供了一个评估服务器用于保留的测试集。人类表现和最先进模型之间的比较结果显示出显著的性能差距,突显了漫画理解领域的巨大发展机遇。该数据集、基线模型和代码可在存储库链接中访问。这一举措为全面的漫画分析设立了新的标准,为社区提供了一个评估大规模和多样化数据集的共同基准。
- 图表
- 解决问题论文旨在解决漫画分析中的多任务能力评估问题,提出了一个新的基准测试集CoMix。
- 关键思路CoMix是一个综合性的基准测试集,包含了多个任务,如物体检测、说话者识别、角色重新识别、阅读顺序和多模态推理任务等,用于评估模型的多任务能力。
- 其它亮点论文提出了一个新的基准测试集CoMix,用于评估漫画分析模型的多任务能力。CoMix由三个现有数据集组成,包括一个新的精心挑选的美国漫画风格数据集,用于丰富漫画风格的多样性。CoMix旨在评估预训练模型在不同漫画风格和任务之间的迁移能力。论文还提供了验证集和评估服务器,以及基线模型和代码。
- 最近的相关研究包括针对单个任务的基准测试集,如物体检测和文本识别,以及基于漫画的研究,如漫画生成和漫画理解。
沙发等你来抢
去评论
评论
沙发等你来抢