Naive Bayes-based Context Extension for Large Language Models

2024年03月26日
  • 简介
    大型语言模型(LLMs)展示了优秀的上下文学习能力。然而,传统的上下文学习(ICL)方法往往受到转换器架构长度限制的影响,在试图有效地整合大量演示示例的监督时面临挑战。在本文中,我们介绍了一种新的框架,称为朴素贝叶斯上下文扩展(NBCE),通过显著扩展上下文大小,使现有LLMs能够执行具有增加演示数量的ICL。重要的是,这种扩展不需要微调或依赖特定的模型架构,同时保持线性效率。NBCE最初将上下文分成适合目标LLM最大长度的等大小窗口。然后,它引入了投票机制来选择最相关的窗口,被视为后验上下文。最后,它使用贝叶斯定理生成测试任务。我们的实验结果表明,NBCE显著提高了性能,特别是随着演示示例数量的增加,始终优于替代方法。NBCE代码将公开提供。NBCE代码可在以下网址获得:https://github.com/amurtadha/NBCE-master。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决传统In-Context Learning(ICL)方法在集成大量演示示例时受到转换器架构长度限制的挑战。
  • 关键思路
    论文提出了一种名为Naive Bayes-based Context Extension(NBCE)的新框架,通过引入投票机制和贝叶斯定理来扩展上下文大小,从而使现有的LLMs能够在不需要微调或依赖特定模型架构的情况下执行ICL,并保持线性效率。
  • 其它亮点
    实验结果表明,NBCE显著提高了性能,特别是在演示示例数量增加时,一致优于替代方法。NBCE代码已公开。
  • 相关研究
    近期的相关研究包括“Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context”和“Longformer: The Long-Document Transformer”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问