CEval: A Benchmark for Evaluating Counterfactual Text Generation

2024年04月26日
  • 简介
    反事实文本生成的目的是最小程度地改变文本,以便其被分类为不同的类别。由于相关工作中数据集和指标的非统一使用,评估反事实文本生成方法的发展进展受到了阻碍。我们提出了CEval,这是一个用于比较反事实文本生成方法的基准。CEval统一了反事实和文本质量指标,包括带有人类注释的常见反事实数据集、标准基线(MICE、GDBA、CREST)和开源语言模型LLAMA-2。我们的实验发现,没有完美的生成反事实文本的方法。在反事实指标方面表现出色的方法往往会产生质量较低的文本,而使用简单提示的LLM会生成高质量的文本,但在反事实标准方面则表现不佳。通过将CEval作为开源Python库提供,我们鼓励社区贡献更多的方法,并在未来的工作中保持一致的评估。
  • 图表
  • 解决问题
    论文旨在解决对抗文本生成中数据集和评估指标不统一的问题,提出了一个新的基准CEval来比较不同方法的性能。
  • 关键思路
    CEval基准将对抗和文本质量指标统一起来,并提供了常见的对抗数据集和基准模型,同时使用了开源语言模型LLAMA-2。通过实验发现,目前还没有完美的对抗文本生成方法,优秀的对抗指标方法往往会产生较低质量的文本,而简单提示的LLM方法生成的文本质量较高,但在对抗标准方面表现不佳。
  • 其它亮点
    CEval基准提供了一个开源的Python库,鼓励社区贡献更多的方法并在未来的工作中保持一致的评估。论文使用了常见的对抗数据集,如IMDB和Yelp,并提供了人类注释的数据集。除此之外,论文还提供了基准模型MICE、GDBA和CREST,并使用了开源语言模型LLAMA-2。值得深入研究的是,论文发现当前还没有完美的对抗文本生成方法。
  • 相关研究
    与此论文相关的研究包括:1. Generating Counterfactual Explanations with Natural Language, 2. Adversarial Examples for Natural Language Classification Problems, 3. TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论