Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT

2024年02月12日
  • 简介
    检索管道是许多机器学习系统的重要组成部分,在文档很长(例如,10K个标记或更多)且识别相关文档需要综合整个文本信息的领域中表现不佳。为这些领域开发适用的长上下文检索编码器面临三个挑战:(1)如何评估长上下文检索性能,(2)如何预训练基础语言模型以表示短上下文(对应查询)和长上下文(对应文档),以及(3)如何通过GPU内存限制下的批量大小限制来微调此模型以进行检索。为了解决这些挑战,首先介绍了LoCoV1,这是一个新颖的12项任务基准,用于测量不可能或不有效地分块的长上下文检索。接下来,介绍了M2-BERT检索编码器,这是一个80M参数状态空间编码器模型,构建于Monarch Mixer架构之上,能够扩展到长达32K个标记的文档。描述了一种预训练数据混合,使该编码器能够处理短上下文和长上下文序列,以及一种微调方法,将此基础模型适应于仅使用单样本批次进行检索。最后,在LoCoV1上验证了M2-BERT检索编码器,发现它的性能优于竞争基线高达23.3个点,尽管包含的参数数量只有竞争基线的5-90倍。
  • 图表
  • 解决问题
    论文试图解决长文本检索中的三个挑战:如何评估长文本检索性能、如何预训练基础语言模型以表示短文本和长文本、如何在GPU内存限制下微调模型以进行检索。
  • 关键思路
    提出LoCoV1基准测试集和M2-BERT检索编码器模型,M2-BERT采用Monarch Mixer架构,可处理长达32K标记的文档,并使用混合数据进行预训练,使用单样本批次进行微调。
  • 其它亮点
    LoCoV1是一个12个任务的基准测试集,M2-BERT检索编码器模型在LoCoV1上的表现优于竞争基线高达23.3点,尽管其参数数量只有竞争基线的5-90倍。
  • 相关研究
    与此相关的最新研究包括使用BERT进行长文本分类和检索的研究,如ERNIE和Longformer。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论