On Zero-Shot Counterspeech Generation by LLMs

2024年03月22日
  • 简介
    随着大量的大型语言模型(LLM)的出现,这些模型在各种自然语言处理(NLP)应用中的使用正在广泛增加。对抗性生成是一项关键任务,努力通过使用仇恨言论-对抗性言论对来微调LLM来开发生成模型,但这些尝试中没有一个探索零-shot设置中大型语言模型的内在属性。在这项工作中,我们首次全面分析了四种LLM的性能,分别是GPT-2、DialoGPT、ChatGPT和FlanT5,用于对抗性生成的零-shot设置。对于GPT-2和DialoGPT,我们进一步研究了模型尺寸(小、中、大)的性能偏差。另一方面,我们提出了三种不同的提示策略,用于生成不同类型的对抗性言论,并分析了这些策略对模型性能的影响。我们的分析表明,对于两个数据集(17%),生成质量有所提高,但毒性随着模型尺寸的增加而增加(25%)。考虑到模型类型,GPT-2和FlanT5模型在对抗性质量方面显着优于DialoGPT,但毒性也很高。ChatGPT在所有指标上都比其他模型更擅长生成对抗性言论。在提示方面,我们发现我们提出的策略有助于提高所有模型的对抗性生成。
  • 图表
  • 解决问题
    分析四个大型语言模型在零样本情况下生成反言的性能表现,比较不同模型和提示策略的效果
  • 关键思路
    本文首次探索了大型语言模型在零样本情况下生成反言的性能,提出了三种不同的提示策略,并比较了四个不同模型的表现,发现ChatGPT在各项指标上表现最好。
  • 其它亮点
    实验发现,使用提示策略可以提高反言的生成质量;GPT-2和FlanT5模型在反言质量上表现更好,但毒性也更高;ChatGPT在所有模型中生成反言的表现最好。
  • 相关研究
    最近的相关研究集中于使用有毒言论-反言对fine-tuning生成模型,而本文则首次探索了大型语言模型在零样本情况下生成反言的性能表现。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论