Oracle Bone Inscriptions Multi-modal Dataset

2024年07月04日
  • 简介
    Oracle bone inscriptions(OBI)是中国最早发展的书写系统,具有珍贵的商代早期历史和古文字学的书写样本。然而,在当前的学术氛围下,解读OBI可能非常具有挑战性。在已经发掘的4500个甲骨文字符中,只有三分之一成功被识别。因此,利用先进的人工智能技术来协助解读OBI是一个非常重要的研究课题。然而,充分利用AI在这些问题上的能力,需要有一个全面且高质量的注释OBI数据集,而大多数现有数据集仅在一个或少数几个维度上进行注释,限制了它们潜在应用的价值。例如,Oracle-MNIST数据集仅提供了30k张图片,分为10个类别。因此,本文提出了一个Oracle Bone Inscriptions Multi-modal Dataset(OBIMD),其中包括10077件甲骨文的注释信息。每件甲骨文都有两种模式:像素级对齐的拓片和复制品。该数据集注释了每个甲骨文字符的检测框、字符类别、转录、相应的铭文组以及组内阅读顺序,提供了全面且高质量的注释水平。该数据集可用于与OBI领域相关的各种AI研究任务,如OBI字符检测和识别、拓片去噪、字符匹配、字符生成、阅读顺序预测、缺失字符完成任务等。我们相信,创建和发布这样的数据集将有助于显著推进AI算法在OBI研究领域的应用。
  • 图表
  • 解决问题
    该论文旨在创建一个全面、高质量的多模态数据集,以协助AI技术在甲骨文破译方面的应用。
  • 关键思路
    该论文提出了一个Oracle Bone Inscriptions Multi-modal Dataset(OBIMD),其中包括10,077个甲骨的像素级对齐拓片和样本图像。该数据集提供了检测框、字符类别、转录、对应的铭文组和铭文组中每个甲骨字符的读取顺序的注释信息,可用于多种与甲骨文研究相关的AI研究任务。
  • 其它亮点
    该数据集可用于多种AI相关的研究任务,如甲骨文字符检测和识别、拓片去噪、字符匹配、字符生成、读取顺序预测、缺失字符补全等。该数据集是全面、高质量的,并可用于进一步研究。
  • 相关研究
    最近的相关研究包括Oracle-MNIST数据集,该数据集仅提供了30k张图像,分类为10个类别。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论