Multimodal Metadata Assignment for Cultural Heritage Artifacts

Multimedia Systems 29 (2023) 847-869
2024年06月01日
  • 简介
    我们采用了一种后期融合的方法,开发了一个文化遗产领域的多模态分类器,并引入了一个新颖的数据集。这三种模态是图像、文本和表格数据。我们基于ResNet卷积神经网络架构构建了图像分类器,并基于多语言变压器架构(XML-Roberta)构建了文本分类器。两者都是多任务分类器,使用聚焦损失来处理类别不平衡。表格数据和后期融合是由梯度树提升来处理的。我们还展示了如何利用知识图谱中的特定数据模型和分类法来创建数据集并存储分类结果。所有单独的分类器都能准确预测数字化丝绸文物中缺失的属性,而多模态方法提供了最佳的结果。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过引入多模态分类器和一个新的数据集,解决文化遗产领域中数字化丝绸文物属性缺失的问题。
  • 关键思路
    论文采用了一种基于后期融合的方法,将图像、文本和表格数据进行分类。图像分类器使用ResNet卷积神经网络架构,文本分类器使用多语言Transformer架构(XML-Roberta),两者都采用多任务分类器进行训练,并使用焦点损失来处理类别不平衡。表格数据和后期融合由Gradient Tree Boosting处理。此外,论文还展示了如何利用特定的数据模型和分类法在知识图谱中创建数据集并存储分类结果。
  • 其它亮点
    论文的多模态方法在解决文化遗产领域中数字化丝绸文物属性缺失的问题方面表现出色。实验结果表明,所有单独的分类器都能准确预测丝绸文物的缺失属性,而多模态方法提供了最佳结果。此外,论文还提供了一个新的数据集,并展示了如何在知识图谱中存储分类结果。
  • 相关研究
    在文化遗产领域中,最近的相关研究包括“基于深度学习的文化遗产图像分类”和“文化遗产数字化中的多模态数据融合方法”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问