Generative Representational Instruction Tuning

2024年02月15日
  • 简介
    我们可以将所有基于文本的语言问题归结为生成或嵌入。目前的模型只能在其中一种任务上表现良好。我们引入了生成表征指令调整(GRIT)方法,通过指令训练一个大型语言模型来处理生成和嵌入任务,并区分它们。与其他开放模型相比,我们的GritLM 7B在大规模文本嵌入基准(MTEB)上取得了新的最佳表现,并在各种生成任务中优于所有同等规模的模型。通过进一步扩展,GritLM 8x7B在仍然是最佳嵌入模型之一的同时,优于我们尝试过的所有开放式生成语言模型。值得注意的是,我们发现GRIT匹配仅基于生成或嵌入数据的训练,因此我们可以在不降低性能的情况下统一两者。除了其他好处外,通过GRIT的统一可以加速检索增强生成(RAG)长文档的速度超过60%,因为不再需要单独的检索和生成模型。模型、代码等可在https://github.com/ContextualAI/gritlm上免费获取。
  • 图表
  • 解决问题
    论文旨在解决当前语言模型在生成和嵌入任务中表现不尽如人意的问题,提出了一种新的训练方法GRIT,旨在让大型语言模型同时处理生成和嵌入任务。
  • 关键思路
    GRIT训练方法通过指令来区分生成和嵌入任务,从而让语言模型同时具备处理这两种任务的能力。通过使用GRIT训练的语言模型GritLM 7B在Massive Text Embedding Benchmark(MTEB)上取得了新的最高分,并在一系列生成任务上表现优异。通过进一步扩展,GritLM 8x7B在保持出色嵌入模型性能的同时,超越了所有开源生成语言模型。
  • 其它亮点
    论文中的实验表明,GRIT训练方法能够同时提高生成和嵌入任务的性能,而且相比于传统方法,使用GRIT训练的语言模型在Retrieval-Augmented Generation(RAG)任务上速度提高了60%以上。此外,论文还提供了相关的代码和模型,方便其他研究人员使用和参考。
  • 相关研究
    最近的相关研究包括Turing-NLG、GPT-3等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论