ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning

2024年08月06日
  • 简介
    大型语言模型(LLMs)在各种自然语言处理任务中表现出色,但利用它们进行密集段落嵌入仍然具有挑战性。这是由于它们的因果关注机制和它们的预训练目标与文本排名任务之间的不匹配。尽管最近有一些努力来解决这些问题,但现有的基于LLM的文本嵌入框架受到支持有限的LLM架构和微调策略的限制,从而限制了它们的实际应用和多功能性。在这项工作中,我们介绍了统一的大型语言模型嵌入框架(ULLME),这是一个灵活的、即插即用的实现,可以在各种LLM中实现双向关注,并支持一系列微调策略。我们还提出了增强生成表示学习(GRL),这是一种新的微调方法,可以提高LLM在文本嵌入任务中的性能。GRL强制要求表示基础和生成基础的相关性得分一致,利用LLM强大的生成能力来学习段落嵌入。为了展示我们框架的灵活性和有效性,我们发布了三个预训练模型,这些模型都具有不同的主干架构,参数范围从15亿到80亿不等,并且在 Massive Text Embedding Benchmark 上表现出强大的性能。我们的框架在以下网址公开:https://github.com/nlp-uoregon/ullme。ULLME的演示视频也可以在https://rb.gy/ws1ile找到。
  • 作者讲解
  • 图表
  • 解决问题
    ULLME试图解决利用LLMs进行密集段落嵌入时的挑战,包括因果关注机制和预训练目标与文本排序任务之间的不一致性等问题。同时,现有的LLM文本嵌入框架支持的LLM架构和微调策略受到限制,限制了它们的实际应用和多样性。
  • 关键思路
    ULLME是一个灵活的、即插即用的实现,支持各种LLM的双向注意力,并支持一系列微调策略。GRL是一种新的微调方法,通过利用LLMs的强大生成能力来增强LLMs的文本嵌入任务。
  • 其它亮点
    论文提出了一个灵活的、即插即用的框架ULLME,支持各种LLM的双向注意力,并支持一系列微调策略。同时,论文还提出了一种新的微调方法GRL,利用LLMs的强大生成能力来增强文本嵌入任务。论文公开了三个预训练模型,范围从1.5B到8B个参数。这些模型在大规模文本嵌入基准测试中表现出强大的性能。框架的代码公开在GitHub上。
  • 相关研究
    近期的相关研究包括针对LLMs进行文本嵌入的其他框架和方法,以及对LLMs进行微调以进行各种自然语言处理任务的研究。其中一些研究包括:BERT、RoBERTa、XLNet等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问