Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors

向作者提问

NEW

简介

本文研究了多项选择题在大型语言模型（LLMs）研究中的一个关键问题，即选择偏差问题。先前的研究在少样本情况下探究了多项选择题中的选择偏差问题，但没有考虑在监督微调（SFT）期间的选择偏差。本文揭示了选择偏差在SFT阶段仍然存在，主要是因为LLM的多项选择符号绑定（MCSB）能力不足。这个限制意味着模型难以有效地将答案选项与它们对应的符号（例如A / B / C / D）关联起来。为了增强模型的MCSB能力，本文首先将选项内容纳入损失函数中，然后调整选项符号和内容的权重，引导模型理解当前符号的选项内容。基于此，本文提出了一种高效的多项选择题SFT算法，称为点对点智能反馈（PIF）。PIF通过将不正确的选项内容与所有候选符号随机组合来构建负实例，并提出点对点损失，将这些负样本的反馈提供给LLMs。实验结果表明，PIF通过提高模型的MCSB能力显著降低了模型的选择偏差。值得注意的是，PIF在多项选择题的准确率方面表现出了显著的提高。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决多项选择题中LLMs的选择偏差问题，特别是在监督微调阶段的选择偏差问题。作者发现这种偏差主要是由于LLMs的多项选择符号绑定能力不足导致的。
关键思路

为了提高LLMs的多项选择符号绑定能力，作者提出了一个有效的监督微调算法PIF，该算法通过将选项内容纳入损失函数，并调整选项符号和内容的权重，指导模型更好地理解当前符号的选项内容。PIF通过构建负实例并提供点对点的损失反馈，显著降低了模型的选择偏差。
其它亮点

本论文的亮点包括提出了PIF算法来解决监督微调阶段的多项选择题选择偏差问题，通过实验验证了PIF算法的有效性，并在多个数据集上取得了优异的结果。此外，作者还提出了一个新的概念，即多项选择符号绑定能力，为后续相关研究提供了新的研究方向。
相关研究

在最近的相关研究中，一些学者尝试解决多项选择题中LLMs的选择偏差问题。例如，一些研究关注于在少样本场景下解决选择偏差问题，而本文则从监督微调阶段入手提出了PIF算法。相关论文包括：Few-Shot Learning for Question Answering by Leveraging the Inter-Question Relationship和Meta-Learning for Few-Shot Natural Language Processing。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问