Oracle Bone Inscriptions Multi-modal Dataset

向作者提问

NEW

简介

Oracle bone inscriptions（OBI）是中国最早发展的书写系统，具有珍贵的商代早期历史和古文字学的书写样本。然而，在当前的学术氛围下，解读OBI可能非常具有挑战性。在已经发掘的4500个甲骨文字符中，只有三分之一成功被识别。因此，利用先进的人工智能技术来协助解读OBI是一个非常重要的研究课题。然而，充分利用AI在这些问题上的能力，需要有一个全面且高质量的注释OBI数据集，而大多数现有数据集仅在一个或少数几个维度上进行注释，限制了它们潜在应用的价值。例如，Oracle-MNIST数据集仅提供了30k张图片，分为10个类别。因此，本文提出了一个Oracle Bone Inscriptions Multi-modal Dataset（OBIMD），其中包括10077件甲骨文的注释信息。每件甲骨文都有两种模式：像素级对齐的拓片和复制品。该数据集注释了每个甲骨文字符的检测框、字符类别、转录、相应的铭文组以及组内阅读顺序，提供了全面且高质量的注释水平。该数据集可用于与OBI领域相关的各种AI研究任务，如OBI字符检测和识别、拓片去噪、字符匹配、字符生成、阅读顺序预测、缺失字符完成任务等。我们相信，创建和发布这样的数据集将有助于显著推进AI算法在OBI研究领域的应用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在创建一个全面、高质量的多模态数据集，以协助AI技术在甲骨文破译方面的应用。
关键思路

该论文提出了一个Oracle Bone Inscriptions Multi-modal Dataset(OBIMD)，其中包括10,077个甲骨的像素级对齐拓片和样本图像。该数据集提供了检测框、字符类别、转录、对应的铭文组和铭文组中每个甲骨字符的读取顺序的注释信息，可用于多种与甲骨文研究相关的AI研究任务。
其它亮点

该数据集可用于多种AI相关的研究任务，如甲骨文字符检测和识别、拓片去噪、字符匹配、字符生成、读取顺序预测、缺失字符补全等。该数据集是全面、高质量的，并可用于进一步研究。
相关研究

最近的相关研究包括Oracle-MNIST数据集，该数据集仅提供了30k张图像，分类为10个类别。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问