- 简介最近大型语言模型(LLMs)的进展为自然语言系统处理非正式语言提供了强大的潜力。非正式语言的一种典型形式是俚语,在日常对话和在线社交媒体中常见使用。到目前为止,由于缺乏经过精心设计和公开可访问的基准,俚语尚未在LLMs中全面评估。我们使用电影字幕构建了一个数据集,支持对与俚语的自动处理相关的各种任务进行评估。对于评估和微调,我们展示了我们的数据集在两个核心应用中的有效性:1)俚语检测,2)从自然句子中识别俚语的地域和历史来源。我们还展示了如何使用我们的数据集来探测LLMs的输出分布,以获取解释性洞见。我们发现,虽然像GPT-4这样的LLMs在零-shot设置下表现良好,但在我们的数据集上微调的较小的BERT-like模型实现了可比较的性能。此外,我们展示了我们的数据集使得LLMs如GPT-3.5能够微调,从而实现了比强零-shot基线更好的性能。我们的工作基于OpenSubtitles语料库,提供了一个基于英语俚语的全面评估和高质量基准,既是一个公开可访问的资源,也是一个应用非正式语言处理工具的平台。
-
- 图表
- 解决问题本论文旨在解决自然语言处理中的一个新问题:如何处理英语俚语。通过构建一个基于电影字幕的数据集,论文提供了一种全面评估和细化大型语言模型(LLMs)的方法,以处理俚语。
- 关键思路论文的关键思路是通过构建一个全面的数据集,来评估和细化大型语言模型(LLMs)的处理俚语的能力。论文还展示了如何使用这个数据集来探索LLMs的输出分布,以获得解释性的见解。
- 其它亮点论文使用电影字幕构建了一个数据集,支持评估自然语言处理中的多个任务,包括俚语检测和识别俚语的地区和历史来源。论文还展示了使用这个数据集进行细化的效果,以及如何使用这个数据集来探索LLMs的输出分布。此外,论文的实验结果表明,使用这个数据集进行细化的LLMs能够实现比强零-shot基线更好的性能。
- 最近的相关研究包括使用其他数据集进行俚语处理的研究,如SlangSD和SlangNet。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流