- 简介在上下文学习(ICL)中,LLM可以在不改变它们的权重的情况下从示例中学习,这对于可能从许多示例中学习的长上下文LLM来说是一种特别有前途的能力。最近,Lin等人提出了URIAL,这是一种仅使用三个上下文示例来对齐基础LLM的方法,可以实现非微不足道的指令跟随性能。在这项工作中,我们表明,尽管ICL对齐与URIAL非常有效,但与在已经建立的基准测试(如MT-Bench和AlpacaEval 2.0(LC))上进行指令微调相比,其表现仍然不足,特别是在更有能力的基础LLM上。与分类、翻译或摘要等任务不同,为长上下文LLM添加更多ICL演示并不能系统地提高指令跟随性能。为了解决这个限制,我们提出了一种贪心选择方法来选择ICL示例,这明显改善了性能,但仍然无法弥合与指令微调之间的差距。最后,我们提供了一系列消融研究,以更好地了解剩余差距的原因,并展示了ICL的某些方面如何偏离现有知识,并特定于指令微调设置。总的来说,我们的工作推进了ICL作为一种对齐技术的理解。我们在https://github.com/tml-epfl/icl-alignment上提供了我们的代码。
- 图表
- 解决问题本论文旨在探讨使用In-context learning (ICL)技术对长文本语言模型进行对齐的效果,并与Fine-tuning方法进行比较,以提高指令跟随性能。
- 关键思路本文提出了一种贪心选择方法来选择ICL示例,以提高对齐性能。同时,通过消融实验,探讨了ICL技术在指令调整设置中的局限性。
- 其它亮点实验结果表明,ICL对齐仍然不如Fine-tuning方法,即使使用更强大的基础语言模型。本文提供了开源代码,并提供了一些值得深入研究的方向。
- 最近的相关研究包括Lin等人的URIAL方法,以及MT-Bench和AlpacaEval 2.0(LC)等基准测试。
沙发等你来抢
去评论
评论
沙发等你来抢