不可否认的是,人工智能(AI)正在加速全行业变革。
小到生活中常见的人脸识别、语音助手,大到基础科学领域的蛋白质结构预测、核聚变控制等,如今的人工智能应用,已经遍地开花。
而这一次,它又瞄向了记载历史的碑文。
图|在复原古代铭文方面,AI 或许已经战胜了人类(来源:Nature)
相关研究论文以“Restoring and attributing ancient texts using deep neural networks”为题,以封面文章形式发表在权威科学期刊 Nature 上。
而且,Ithaca 还能以 71% 的准确度判断这些铭文的原始位置,鉴定年代与历史学家提出的范围也相差少于 30 年。
在论文的最后,研究人员表示,研究方法适用于手稿学、钱币学和纸草学等所有与古代文本相关的学科,也适用于古代、现代的任何语言。
这一研究成果,或将释放人工智能与历史学家的合作潜力,提升我们对人类历史的理解。
原始文字是人类用来纪录特定事物、简化图像而成的书写符号,对人类理解过去人类文明和当前世界至关重要。
早期文字以图画形式存在,有些是以形表意,有些是以形表音。
象形文字就属于以形表意的范畴,与语音关系不大,汉字便由从象形文字渐次演变而成。
图|不同象形文字的演化(来源:维基百科)
不同的外文字母可以组合成不同的外国文字。
图|不同语言文字的字体与样式(来源:维基百科)
例如,早在 2500 多年前,古希腊人便开始在石头、陶器和金属上记录从租约、法律到日历、预言的一切。正是这些史料,让历史学家们对地中海地区有了详细的了解。
但不幸的是,这一记录并不完整。几个世纪以来,众多幸存下来的铭文也陆续遭到破坏,从原来的位置被移走,或被贩运。
而且,由于各种外部原因,这些文本难以辨认,书写时间也不确定。
尽管当前历史学家们可以借助现有方法重建出缺失的文本,但目前的年代测定技术(如放射性碳年代测定法)却无法在这些材料上使用。
基于以上原因,这些铭文解读起来,既困难又费时。
当前,自然语言处理(NLP)模型通常会使用大量单词来进行训练,因为这些单词在句子中出现的顺序与它们之间的关系可以提供额外的含义。比如,“once upon a time” 一起出现,就比单个字符或单词更有含义。
在此次研究中,Ithaca 是基于帕卡德人文学院(Packard Humanities Institute)提供的最大希腊碑文数字数据集训练的。
为确保 Ithaca 模型在使用缺失字符时仍能正常进行训练,研究人员同时将单词和单个字符作为输入,模型核心的稀疏自我注意机制并行地评估这两个输入,允许 Ithaca 根据需要评估铭文。
结果表明,Ithaca 的设计决策和可视化辅助可以帮助历史学家更容易地复原铭文,强大的人机合作潜力,有助于更好地还原历史真相,甚至帮助解决一些争议性问题。
例如,历史学家们对雅典颁布的一系列重要法令的日期存在分歧,这些法令是在苏格拉底和伯里克利等著名人物在世时期颁布的,被认为是在公元前 446/5 年之前书写的。而 Ithaca 与历史学家一起,将这一日期更新到了公元前 424/3 年。
图|碑文记录了迦尔西斯城对雅典的效忠誓言。(来源:卫城博物馆)
此外,历史学家们也与 Ithaca 一起,重新复原了希腊历史上一次关于雅典卫城的法令。
图|修复后的铭文记录了一项关于公元前 485/4 年雅典卫城的法令。
这一变化证明,Ithaca 具有强大的协同效应。
“学者们不会被取代,相反,Ithaca 就像一只猎犬,会为学者寻找线索,但不做最后的决定。”英国伦敦国王学院(King's College London)荣誉退休教授 Charlotte Roueché 在评论文章中表示。
Roueché 认为,这一进步不应该被解读为对上百年传统的威胁,而应该是对传统的一种补充。人工智能不应该让学者变得多余,而应该是挑战他们对自认为已经知道的东西的理解。
原文链接:
https://www.nature.com/articles/s41586-022-04448-z
https://en.wikipedia.org/wiki/Writing_system
评论
沙发等你来抢