Low-Cost Generation and Evaluation of Dictionary Example Sentences

简介

字典中的例句在说明单词定义和用法方面起着重要作用，但是手动创建高质量的例句是具有挑战性的。以前的研究表明，语言模型可以被训练以生成例句。然而，它们依赖于昂贵的定制模型和单词意义数据集来生成和评估它们的工作。基础模型的快速发展提供了创建低成本、零样本方法用于生成和评估字典例句的机会。我们介绍了一种新的自动评估指标，称为OxfordEval，它衡量生成的句子与现有的牛津字典句子之间的胜率。OxfordEval显示出与人类判断的高度一致性，实现了大规模的自动化质量评估。我们尝试使用各种LLM和配置生成跨单词类别的字典句子。我们还采用了一种新颖的方法，使用掩码语言模型来识别和选择最能说明单词含义的句子。最终模型FM-MLM根据OxfordEval的结果，对于牛津基准句子，胜率超过85.1％，而以前模型生成的句子的胜率仅为39.8％。
图表
解决问题

如何使用基于语言模型的方法自动生成词典例句？
关键思路

使用最新的预训练语言模型，结合新的自动评估指标OxfordEval，实现低成本、高效率的词典例句自动生成方法。
其它亮点

引入了新的自动评估指标OxfordEval，与人类判断高度一致；使用掩码语言模型来选择最能代表单词含义的例句；最终模型FM-MLM在OxfordEval上实现了85.1%的胜率。
相关研究

最近相关研究包括：使用自编码器生成例句、使用多任务学习生成例句、使用知识图谱辅助生成例句等。

Low-Cost Generation and Evaluation of Dictionary Example Sentences

评论