近期,微软亚洲研究院主管研究员武智融与首都师范大学甲骨文研究中心莫伯峰教授团队合作,提出了基于自监督学习的甲骨文校重助手 Diviner,大幅提升了甲骨文校重工作的效率。系统穷尽比对了18万幅拓本,辅助甲骨学家在上百个甲骨文数据库中发现了大量甲骨重片,不仅复现了专家过去所发现的数万组重片,而且经过初步整理,已发现了三百多组未被前人发现的校重新成果。

这项研究为甲骨文整理领域开创了人工智能与人类专家协作(AI+HI)的全新研究范式。本项目全面成果的甲骨学解读稍后将发布于中国社科院先秦史研究室网站 www.xianqin.org

在甲骨学研究中,甲骨“校重”整理是一项费事费力但又极其重要的基础性研究工作。微软亚洲研究院与首都师范大学甲骨文研究中心莫伯峰教授团队合作开发的甲骨文校重助手 Diviner,第一次将自监督 AI 模型引入到甲骨文“校重”工作中,并取得数百项新成果,为甲骨文整理领域开创了人工智能与人类专家协作(AI+HI)的全新研究范式。

入选《世界记忆名录》的甲骨文,是迄今为止中国发现的年代最早的成熟文字系统,对中国历史乃至世界文化的发展研究具有非凡意义。有人曾说“东周之前无信史”,因为《春秋》一书记录了2000多年前的东周历史,而之前的商文明曾被认为是传说,直至甲骨文被发现,才有力地证明了殷商王朝的存在,把中国信史向上推进了约1000年。

从甲骨文首次被发现至今,出土的甲骨实物约有十五万片。因为收藏、流转的缘故,大部分的甲骨都留下了多张拓本图像,被称为“重片”。甲骨重片数量繁多,效果互有参差,对其整理成为了一项重要的基础性研究工作,称作“校重”。然而,人工校重只能一一对照,费时费力,是甲骨文研究的一大痛点。正如《甲骨文合集补编》“前言”中所述:“这种对重、选片的工作,其烦琐、费工是局外人难以想象的。”

AI在甲骨文“校重”中令人惊喜的新发现

“校重”是甲骨学领域的一个老题目,此前已经有很多甲骨学家为这项工作倾注了大量心血。比如甲骨文领域最重要的两部著录书《合集》《合补》,在编著过程中花费大量功夫做的工作就是校重。理论上来说,完成一张甲骨拓本的校重工作,应该将它与其余的所有甲骨拓本逐一比照,才能确保没有遗漏。尽管可以利用文字信息和分类方法缩小对比范围,但对于甲骨学家而言,这仍然是一项十分艰巨的工作,且难以保证全面性和准确性。

对比和处理海量数据,并从中挖掘有用信息正是 AI 的专长。大规模的校重,穷尽性的比对,都难不倒校重助手 Diviner。接下来就让我们一起看看 Diviner 的效果。

自监督学习首次在甲骨文中应用,AI模型泛化性显著

近两年,不依赖人工标注数据的自监督学习是 AI 研究的热门方向,但很多前沿技术仍停留在研究阶段。Diviner 不仅第一次将自监督 AI 模型引入到甲骨文“校重”工作,也是自监督 AI 模型在真实场景中的一次成功应用。

Diviner 模型一个特点是具有强大的泛化能力,这归功于其自监督学习的匹配算法。模型通过图像增强技术模拟同一块甲骨在不同时期制作成拓片或者因年深日久造成的图像变化,例如磨损、模糊等。在大规模无标注数据上获取的密集的自我监督,远远比稀疏的基于整体的人工监督更有效。

计算两张拓片的视觉相似度,通常的方法会从全局特征出发。然而,在甲骨文的研究中,即使是重片,外观上也可能有很大差异,这是由于拓印范围、拓印方式、磨损等多方面原因造成的。考虑到一块完整的甲骨可能会碎裂成多片,校重时经常需要从大骨片中找出小骨片。因此,基于全局外观表示的传统方法并不能很好地发挥作用。面对这一挑战,研究员想到了甲骨拓片的特性,因其是从同一块甲骨而来,重片之间存在着精确的点与点的对应关系。基于这一特性,校重助手 Diviner 从局部寻找匹配关系,再拓展到全局。

  • 局部匹配。Diviner 使用的局部描述符(local descriptor)是经过自监督训练的深度神经网络。模型应用了对比学习的自监督技术,使用图像增强,让特征在训练时不受甲骨拓片上清晰度、对比度、噪音、旋转等因素的影响。在甲骨图像上训练的局部描述符能够检测和匹配局部块之间的关键点,并进行点对点匹配。

  • 全局优化。基于密集的点与点的匹配结果,通过使用鲁棒的优化算法 RANSAC 估计全局的几何仿射变换。仿射变换允许模型在内容重复的情况下拼合或拼接已有图像。这种局部到全局的方法对检测大量的甲骨碎片至关重要。

“AI+HI”为古文化研究打开新大门

“甲骨学是一个系统性的科学,一方面它是一种语言文字研究资料,另一方面它是一种历史研究资料,其研究涉及方方面面,研究者需要了解文字在古代的形、音、义等等,因此我们解决一个问题也要从不同维度探讨。此次与微软亚洲研究院的合作只是甲骨文和人工智能交叉研究的一个小序幕,推开了甲骨学研究的一扇新大门,为后续的研究起到了示范作用。未来,人工智能与古文字研究的结合将具有更广阔的前景。”莫伯峰教授表示。

本文转载于公众号AI前线,更多内容请参考 https://mp.weixin.qq.com/s/dpA-SJxkQV5SAw-K6tIyiA

内容中包含的图片若涉及版权问题,请及时与我们联系删除