- 简介大型语言模型(LLMs)的零样本能力使得各种任务的高度灵活的无参考度量成为可能,使得LLM评估器成为NLP中常见的工具。然而,这些LLM评估器的鲁棒性仍然相对不足;现有的工作主要追求在将LLM分数与人类专家分数相关联方面的最佳性能。在本文中,我们使用SummEval数据集进行了一系列分析,并确认LLMs是有偏评估器,因为它们:(1)表现出熟悉性偏见——即对困惑度较低的文本有偏好,(2)显示出偏斜和有偏的评分分布,以及(3)对多属性判断存在锚定效应。我们还发现,LLMs是不一致的评估器,显示出低的“样本间”一致性和对提示差异的敏感性,这些提示差异对人类理解文本质量来说是微不足道的。此外,我们分享了配置LLM评估器以减轻这些限制的配方。在RoSE数据集上的实验结果证明了与最先进的LLM评估器相比的改进。
- 图表
- 解决问题研究LLM评估器的偏差和不一致性问题,提出缓解这些问题的方法。
- 关键思路LLM评估器存在偏差和不一致性问题,通过配置可以缓解这些问题。
- 其它亮点实验使用了SummEval和RoSE数据集,发现LLM评估器存在偏差和不一致性问题,并提出缓解方法。
- 最近的相关研究主要集中在优化LLM评估器与人类专家评分的相关性方面。
沙发等你来抢
去评论
评论
沙发等你来抢