- 简介我们测试了讽刺检测模型的鲁棒性,通过检查它们在四个包含不同讽刺特征的数据集上微调的行为:标签来源(作者与第三方),领域(社交媒体/在线与离线对话),风格(攻击性与幽默嘲讽)。我们测试了它们在同一数据集(内部数据集)和不同数据集(跨数据集)上的预测表现。对于内部数据集预测,模型在使用第三方标签进行微调时表现一致更好。对于跨数据集预测,大多数模型无法很好地推广到其他数据集,这意味着一种类型的数据集不能代表具有不同风格和领域的所有讽刺。与现有数据集相比,我们在本文中发布的新数据集上微调的模型对其他数据集的泛化能力最高。通过对数据集的手动检查和事后分析,我们归因于泛化困难的原因是讽刺实际上具有不同的领域和风格。我们认为未来的讽刺研究应该考虑到讽刺的广泛范围。
- 图表
- 解决问题论文旨在测试讽刺检测模型的鲁棒性,以验证其在不同数据集上的表现。同时,研究人员也试图探究讽刺的不同特点对模型表现的影响。
- 关键思路论文通过研究不同数据集的特点,提出了一种新的数据集,并使用该数据集进行fine-tune,最终得到的模型在不同数据集上的表现最优。
- 其它亮点论文发现,讽刺具有不同的领域和风格,这是导致模型泛化能力差的主要原因。同时,研究人员也开源了新的数据集,并提供了实验结果和后续研究方向。
- 近期的相关研究包括:《A Large Self-Annotated Corpus for Sarcasm》、《Sarcasm Detection using Neural Network》等。
沙发等你来抢
去评论
评论
沙发等你来抢