- 简介大型语言模型(LLMs)展示了在上下文学习方面的新兴能力,它们可以根据示例演示适应新任务。然而,在许多情况下,上下文学习的效果有限,很难进行定量控制,并占据上下文窗口空间。为了克服这些限制,我们提出了一种替代方法,将上下文学习重新构建为上下文向量(ICV)。使用ICV有两个步骤。我们首先对演示示例进行前向传递,从LLM的潜在嵌入中创建上下文向量。这个向量捕捉了有关预期任务的基本信息。在新的查询中,我们不是将演示添加到提示中,而是使用ICV移动LLM的潜在状态。ICV方法有几个好处:1)它使LLM更有效地遵循演示示例;2)通过调整ICV的大小很容易控制;3)通过删除上下文演示,它减少了提示的长度;4)ICV比微调计算效率高得多。我们证明ICV在包括安全性、样式转移、角色扮演和格式化在内的各种任务中比标准上下文学习和微调实现了更好的性能。此外,我们展示了我们可以通过对相应ICV进行简单的向量算术,灵活地教授LLM同时遵循不同类型的指令。
- 图表
- 解决问题本文试图解决in-context learning在许多情况下效果有限、难以定量控制且占用上下文窗口空间的问题,提出一种新的in-context vectors方法。
- 关键思路本文提出使用in-context vectors(ICV)的方法,将in-context learning转化为ICV,通过调整ICV的幅度来控制模型的行为,这种方法比fine-tuning更高效,可以在各种任务上实现更好的性能。
- 其它亮点本文的实验结果表明,ICV方法相比标准的in-context learning和fine-tuning在多个任务上都能取得更好的性能,包括安全性、风格转移、角色扮演和格式化等。此外,ICV方法还可以通过简单的向量算术来灵活地同时跟随不同类型的指令。本文使用了多个数据集进行实验,并且开源了代码。
- 最近在这个领域的相关研究包括:《Large-Scale Language Model Compression》、《Few-Shot Text Classification with Distributional Signatures》、《Pretrained Transformers Improve Out-of-Distribution Robustness》等。
沙发等你来抢
去评论
评论
沙发等你来抢