Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors

简介

本文研究了多项选择题（MCQs）在大型语言模型（LLMs）中的关键问题。先前的研究主要探究了LLM在少样本情况下MCQs中的选择偏差问题，但在监督微调（SFT）阶段中的选择偏差问题尚未得到探究。本文揭示了选择偏差在SFT阶段中仍然存在，主要是由于LLM的多选符号绑定（MCSB）能力不足所致。这种限制意味着模型难以有效地将答案选项与其对应的符号（例如A / B / C / D）相关联。为了增强模型的MCSB能力，我们首先将选项内容纳入损失函数，然后调整选项符号和内容的权重，引导模型理解当前符号的选项内容。基于此，我们提出了一种高效的MCQs SFT算法，称为点对点智能反馈（PIF）。PIF通过随机组合错误的选项内容和所有候选符号构建负实例，并提出一种点对点损失，将这些负样本的反馈提供给LLMs。我们的实验结果表明，PIF通过提高MCSB能力显著减少了模型的选择偏差。值得注意的是，PIF在MCQs的准确性方面表现出了显著的提高。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探讨大型语言模型在多选题中的选择偏差问题，并提出了一种有效的解决方案。
关键思路

本文提出了一种名为Point-wise Intelligent Feedback（PIF）的算法，通过将选项内容纳入损失函数，并调整选项符号和内容的权重，引导模型更好地理解当前符号的选项内容，从而提高模型的多选符号绑定能力。
其它亮点

本文使用了多个数据集进行实验，结果表明PIF算法可以显著降低模型的选择偏差，提高多选题的准确性。此外，本文还开源了代码，方便其他研究者使用和参考。
相关研究

近期的相关研究主要集中在探讨多选题中的选择偏差问题，但大多数研究都是在少样本情况下进行的。与之前的研究不同，本文重点探讨了在监督微调阶段中的选择偏差问题，并提出了一种新的解决方案PIF算法。

Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors

提问交流

提问交流