Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors

ACL 2024
2024年06月03日
  • 简介
    本文研究了多项选择题在大型语言模型(LLMs)研究中的一个关键问题,即选择偏差问题。先前的研究在少样本情况下探究了多项选择题中的选择偏差问题,但没有考虑在监督微调(SFT)期间的选择偏差。本文揭示了选择偏差在SFT阶段仍然存在,主要是因为LLM的多项选择符号绑定(MCSB)能力不足。这个限制意味着模型难以有效地将答案选项与它们对应的符号(例如A / B / C / D)关联起来。为了增强模型的MCSB能力,本文首先将选项内容纳入损失函数中,然后调整选项符号和内容的权重,引导模型理解当前符号的选项内容。基于此,本文提出了一种高效的多项选择题SFT算法,称为点对点智能反馈(PIF)。PIF通过将不正确的选项内容与所有候选符号随机组合来构建负实例,并提出点对点损失,将这些负样本的反馈提供给LLMs。实验结果表明,PIF通过提高模型的MCSB能力显著降低了模型的选择偏差。值得注意的是,PIF在多项选择题的准确率方面表现出了显著的提高。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决多项选择题中LLMs的选择偏差问题,特别是在监督微调阶段的选择偏差问题。作者发现这种偏差主要是由于LLMs的多项选择符号绑定能力不足导致的。
  • 关键思路
    为了提高LLMs的多项选择符号绑定能力,作者提出了一个有效的监督微调算法PIF,该算法通过将选项内容纳入损失函数,并调整选项符号和内容的权重,指导模型更好地理解当前符号的选项内容。PIF通过构建负实例并提供点对点的损失反馈,显著降低了模型的选择偏差。
  • 其它亮点
    本论文的亮点包括提出了PIF算法来解决监督微调阶段的多项选择题选择偏差问题,通过实验验证了PIF算法的有效性,并在多个数据集上取得了优异的结果。此外,作者还提出了一个新的概念,即多项选择符号绑定能力,为后续相关研究提供了新的研究方向。
  • 相关研究
    在最近的相关研究中,一些学者尝试解决多项选择题中LLMs的选择偏差问题。例如,一些研究关注于在少样本场景下解决选择偏差问题,而本文则从监督微调阶段入手提出了PIF算法。相关论文包括:Few-Shot Learning for Question Answering by Leveraging the Inter-Question Relationship和Meta-Learning for Few-Shot Natural Language Processing。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问