作者:Yanran Chen, Steffen Eger

简介:最近提出的基于BERT的评估指标在标准评估基准上表现良好,但容易受到对抗性攻击,例如与真实性错误相关的攻击。作者认为这(部分)源于这样一个事实,即它们是语义相似性的模型。相反,作者开发了基于自然语言推理(NLI)的评估指标,作者认为这是一种更合适的建模方法。作者设计了一个基于偏好的对抗攻击框架,并表明作者基于NLI的指标比最近基于BERT的指标对攻击更具鲁棒性。在标准基准上,作者基于NLI的指标优于现有的摘要指标,但性能低于SOTA MT指标。然而,当作者将现有指标与作者的NLI指标相结合时,作者既获得了更高的对抗鲁棒性(+20%至+30%),也获得了标准基准上更高质量的指标(+5%至+25%)。

论文下载:https://arxiv.org/pdf/2208.07316.pdf
  

内容中包含的图片若涉及版权问题,请及时与我们联系删除