- 简介单词复杂度可以通过多种方式定义,通常使用心理语言学、形态和词汇代理。也会使用人类评分。问题在于这些代理不能直接测量复杂性,而且人类评分容易受到主观偏见的影响。在这项研究中,我们认为可以通过使用简单和复杂单词的样本来近似某种形式的“潜在复杂性”。我们从小学图画书中使用一组“简单”单词样本,以及从高中和学术环境中使用一组“复杂”单词样本。为了分析这些类别之间的差异,我们查看字母位置概率(LPPs)。我们发现几个LPP与复杂性之间存在强烈的统计关联。例如,简单单词以w、b、s、h、g、k、j、t、y或f开头的可能性显著(p<.001)更高,而复杂单词以i、a、e、r、v、u或d开头的可能性显著(p<.001)更高。我们发现类似的强关联也存在于后续字母位置,前6个位置的84个字母位置变量在p<.001水平上显著。然后,我们使用LPP作为变量来创建一个分类器,该分类器可以将两个类别分类,准确率达到83%。我们使用第二个数据集测试这些发现,前6个位置的66个LPP在两个数据集中都显著(p<.001)。我们使用这66个变量来创建一个分类器,该分类器能够将第三个数据集分类,准确率为70%。最后,我们通过将建立在前三个单独数据集上的三个分类器生成的极高和极低得分单词组合起来来创建第四个样本,并使用该样本来构建一个分类器,其准确率为97%。我们使用这个分类器来评分ESL课程的四个英语单词组。
- 图表
- 解决问题本论文试图通过使用简单词汇和复杂词汇的样本来近似测量一种潜在的词汇复杂度,并使用字母位置概率(LPPs)来分析这两类词汇之间的差异。
- 关键思路使用LPPs作为变量,创建分类器来区分简单和复杂的词汇,并通过多个数据集测试其准确性。
- 其它亮点论文发现,简单词汇和复杂词汇在字母位置概率上存在显著差异,并使用LPPs作为变量创建了准确率高达97%的分类器。实验使用了多个数据集,并且提供了开源代码。
- 与该论文相关的研究包括:1.使用神经网络来预测词汇复杂度的研究;2.使用语言学和心理学指标来测量词汇复杂度的研究。
沙发等你来抢
去评论
评论
沙发等你来抢