- 简介理论语言学家认为,一些语言(如中文和日语)比其他语言更“冷静”,因为这些语言中短语的意思更多地取决于它们的上下文。因此,这些语言中许多表达方式都被缩短,它们的意思是从上下文中推断出来的。在本文中,我们专注于研究中文名词短语中复数和定冠词标记的省略,以调查在给定上下文情况下它们的意思是否可预测。为此,我们建立了一个中文名词短语语料库,每个名词短语都附带其对应的上下文和标签,指示其单复数和定性/不定性。我们进行了语料库评估和分析。结果表明,中文说话者确实非常频繁地省略复数和定冠词标记。在此基础上,我们使用经典机器学习模型和最先进的预训练语言模型训练了一组计算模型,以预测每个名词短语的复数和定冠词。我们报告了这些模型的性能并分析了它们的行为。
-
- 图表
- 解决问题研究中文名词短语中省略数量和定冠词的情况,探究在上下文给定的情况下,意义是否可预测。
- 关键思路通过构建一个中文名词短语语料库,使用经典机器学习模型和最先进的预训练语言模型来训练计算模型,预测每个名词短语的数量和定冠词。结果表明,中文说话者确实经常省略数量和定冠词标记。
- 其它亮点论文建立了一个中文名词短语语料库,并使用多种计算模型进行训练和分析。实验结果表明,中文说话者经常省略数量和定冠词标记。这篇论文的方法可以为中文自然语言处理提供有用的信息。
- 在相关研究方面,最近的一些研究集中在使用深度学习方法解决中文自然语言处理问题上,例如使用神经网络进行分词或命名实体识别。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流