Using Letter Positional Probabilities to Assess Word Complexity

2024年04月11日
  • 简介
    单词的复杂性可以用多种不同的方式定义,通常使用心理语言学、形态和词汇代理。人类评级也被使用。问题在于这些代理不能直接测量复杂性,而且人类评级容易受到主观偏见的影响。在这项研究中,我们认为可以通过使用简单和复杂单词的样本来近似某种形式的“潜在复杂性”。我们使用小学图画书中的“简单”单词样本和高中和学术环境中的“复杂”单词样本。为了分析这些类别之间的差异,我们研究字母位置概率(LPPs)。我们发现几个LPP和复杂性之间有强烈的统计关联。例如,简单单词更有可能以w、b、s、h、g、k、j、t、y或f开头,而复杂单词更有可能以i、a、e、r、v、u或d开头。我们发现类似的强关联也存在于后续字母位置,前6个位置的84个字母位置变量在p<.001水平上显著。然后,我们使用LPP作为变量创建分类器,可以将两个类别分类,准确率为83%。我们使用第二个数据集测试这些发现,前6个位置的66个LPP在两个数据集中都显著(p<.001)。我们使用这66个变量创建分类器,可以将第三个数据集分类,准确率为70%。最后,我们通过将建立在前三个单独数据集上的三个分类器生成的极高和极低得分单词组合起来创建第四个样本,并使用该样本构建分类器,准确率为97%。我们使用这个分类器对一个ESL项目的四个级别的英语单词组进行评分。
  • 图表
  • 解决问题
    论文试图通过使用简单和复杂单词的样本,利用字母位置概率来近似衡量单词复杂度。同时,构建了分类器来对单词进行分类。
  • 关键思路
    利用字母位置概率来近似衡量单词复杂度,并构建分类器对单词进行分类。
  • 其它亮点
    论文使用了两个数据集进行实验,并将结果用于评估ESL程序中的单词等级。分类器的准确率在不同数据集上分别为83%、70%和97%。
  • 相关研究
    在该领域的相关研究中,有一些研究关注单词复杂度的度量方法,如基于音节的度量方法和基于语言模型的度量方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论