A Crosslingual Investigation of Conceptualization in 1335 Languages

解决问题:本论文旨在调查1335种语言中的概念化差异,并提出了一种名为Conceptualizer的方法来对齐源语言概念和目标语言字符串集合,以探究语言之间的概念化差异。同时,论文还探讨了概念化在自然语言处理中的潜在应用。

关键思路:论文提出了一种新的方法Conceptualizer,通过创建一个双向有向对齐图,将源语言概念和目标语言字符串集合进行对齐,从而研究语言之间的概念化差异。相比于当前领域的研究,该方法具有较高的对齐精度,并且能够为语言之间的概念相似度计算提供一种新的思路。

其他亮点:论文通过两个实验展示了概念化在自然语言处理中的潜在应用。第一个实验探究了概念的跨语言稳定性,发现具体概念具有更高的跨语言稳定性。第二个实验通过将每种语言表示为83个概念的概念化模式,并在此基础上定义了一种相似度度量方法,该方法对于语言之间的概念相似度计算具有较高的准确性。

关于作者:本文的主要作者来自德国马普计算机科学研究所和德国萨尔州大学,他们在自然语言处理领域有丰富的研究经验。其中,Hinrich Schütze曾发表过《Introduction to Computational Linguistics》等多篇自然语言处理领域的重要论文。

相关研究:与本文相关的其他研究包括《A typology of lexical relations in Chinese WordNet》(作者:Yihong Liu等,机构:德国马普计算机科学研究所)、《Cross-Lingual Alignment of Contextualized Embeddings with Applications to Zero-shot Dependency Parsing》(作者:Haotian Ye等,机构:德国马普计算机科学研究所)等。

论文摘要:本文题目为《1335种语言中概念化的跨语言研究》。各种语言在如何将世界分解成概念和词汇方面存在差异;例如,与英语不同,斯瓦希里语只有一个概念表示“肚子”和“子宫”。本文通过对齐语料库中的概念来研究这些概念化的差异。为此,我们提出了Conceptualizer方法,该方法创建了一个双向有向对齐图,将源语言概念与目标语言字符串集合对齐。通过对一个概念(“鸟”)进行所有语言的详细语言分析以及在32个Swadesh概念的黄金标准数据上进行评估,我们展示了Conceptualizer具有良好的对齐准确性。我们通过两个实验展示了自然语言处理中概念化研究的潜力:(1)我们将一个概念的跨语言稳定性定义为其在不同语言中具有一对一对应关系的程度,并表明具体性可以预测稳定性;(2)我们通过83个概念的概念化模式来表示每种语言,并在这些表示上定义相似度度量。由此得到的两种语言的概念相似度度量是标准谱系、类型和表面相似度度量的补充。对于六个语言家族中的四个,我们可以根据概念相似度将语言分配到其正确的家族中,准确率在54%到87%之间。

内容中包含的图片若涉及版权问题,请及时与我们联系删除