Turkish Delights: a Dataset on Turkish Euphemisms

2024年07月17日
  • 简介
    委婉语是一种在自然语言处理中相对较少研究的比喻语言形式。本研究将当前关于潜在委婉语术语(PETs)的计算工作扩展到土耳其语。我们介绍了土耳其PET数据集,这是该领域中首个可用的数据集。通过创建土耳其语委婉语列表、收集示例语境并对其进行注释,我们提供了土耳其语PET的委婉语和非委婉语示例。我们描述了数据集和方法,并使用我们的数据集进行二元分类的土耳其语委婉语检测的基于转换器的模型实验。我们使用F1、准确性和精度作为评估指标比较模型的性能。
  • 作者讲解
  • 图表
  • 解决问题
    这篇论文旨在扩展当前关于委婉语的自然语言处理研究,提出了第一个针对土耳其语的委婉语数据集,并尝试使用该数据集来进行土耳其委婉语检测的实验。
  • 关键思路
    论文的关键思路是创建一个土耳其语委婉语数据集,并使用基于transformer的模型进行二元分类,比较不同模型的性能表现。
  • 其它亮点
    该论文提供了一个新的土耳其语委婉语数据集,包括委婉语和非委婉语例子以及相应的标注。论文使用F1,准确率和精度等指标比较了不同模型的性能表现。该论文的实验设计详细,使用的数据集和代码均已公开。
  • 相关研究
    在该领域的相关研究中,还有一些关于委婉语的自然语言处理的研究,如英文、中文等其他语言的委婉语数据集的构建和相应的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问