- 简介大型语言模型(LLMs)能够仅凭少量演示就利用其上下文学习(ICL)能力解决各种任务。然而,LLMs通常依赖于演示的预先训练的语义先验知识,而不是输入-标签关系来进行ICL预测,我们将这种现象称为“演示快捷方式”。虽然以前的研究主要集中在改进预定义任务的ICL预测结果上,但我们的目标是纠正演示快捷方式,从而使LLM能够有效地从演示中学习新的输入-标签关系。为了实现这一目标,我们引入了一种演示感知的校准方法,称为“In-Context Calibration”。我们在两个设置下评估了所提出方法的有效性:(1)使用标准标签空间的原始ICL任务和(2)任务学习设置,其中标签空间被替换为语义上不相关的标记。在两种设置下,In-Context Calibration都表现出了显著的改进效果,结果在三个LLM系列(OPT、GPT和Llama2)的各种配置下都具有普适性。
- 图表
- 解决问题本文旨在解决大型语言模型(LLMs)在进行上下文学习时过度依赖先前的语义偏好而忽略输入标签关系的问题,即所谓的“演示快捷方式”。
- 关键思路本文提出了一种演示感知的校准方法——In-Context Calibration,旨在纠正演示快捷方式,使LLM能够从演示中有效学习新的输入标签关系。
- 其它亮点实验结果表明,In-Context Calibration在原始ICL任务和任务学习设置下都能显著提高LLM的预测结果,且结果适用于三个LLM系列(OPT、GPT和Llama2)的各种配置。本文的亮点还包括实验设计合理、使用了多个数据集并开源了代码。
- 最近的相关研究包括:《Few-shot Learning with Graph Neural Networks》、《Learning to Learn from Sparse Data: A Deep Neural Network Approach for High-Dimensional Sparse Sequential Prediction》等。
沙发等你来抢
去评论
评论
沙发等你来抢