"Seeing the Big through the Small": Can LLMs Approximate Human Judgment Distributions on NLI from a Few Explanations?

2024年06月25日
  • 简介
    人类标注变异(HLV)是一种宝贵的信息来源,当多个人类注释者出于合理原因提供不同标签时会产生这种变异。在自然语言推理(NLI)中,早期捕捉HLV的方法涉及收集来自许多众包工人的注释以代表人类判断分布(HJD),或使用专家语言学家提供其所选标签的详细解释。前一种方法提供了更密集的HJD信息,但获取它的成本很高。相反,后者提供了更丰富的文本信息,但难以扩展到许多人类评判者。此外,大型语言模型(LLMs)越来越多地被用作评估者(“LLM评委”),但结果参差不齐,很少有作品旨在研究HJD。本研究提出利用LLMs来近似HJD,使用少量专家标签和解释。我们的实验表明,少量解释显著提高了LLMs在有和没有明确标签的情况下近似HJD的能力,从而为扩展HJD注释提供了解决方案。但是,使用LLM生成的模型判断分布(MJDs)微调较小的软标签感知模型会产生部分不一致的结果:虽然距离相似,但其产生的微调模型和可视化分布差异显著。我们展示了将实例级距离度量与全局级形状度量和可视化相结合以更有效地评估MJDs与人类判断分布之间的差异的重要性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决自然语言推理中人类标注变异(HLV)的问题,通过少量专家标签和解释,利用大型语言模型(LLMs)来近似人类判断分布(HJDs)。
  • 关键思路
    利用大型语言模型(LLMs)来近似人类判断分布(HJDs),从而解决人类标注变异(HLV)的问题。
  • 其它亮点
    本论文的实验结果表明,少量的解释可以显著提高LLMs近似HJDs的能力,并提供了一种扩展HJD注释的解决方案。但是,使用LLM生成的模型判断分布(MJDs)微调较小的软标签感知模型会出现部分不一致的结果。本论文强调了将实例级距离度量与全局级形状度量和可视化相结合来更有效地评估MJDs与人类判断分布的差异。
  • 相关研究
    最近的相关研究主要集中在使用LLMs作为评估器(“LLM judges”)的效果和利用专家语言学家提供的详细解释来捕捉HLV的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问