Establishing Performance Baselines in Fine-Tuning, Retrieval-Augmented Generation and Soft-Prompting for Non-Specialist LLM Users

2023年11月10日
  • 简介
    研究大型语言模型(LLMs)通过微调、检索增强生成(RAG)和软提示等方法提高性能的方法,往往集中于使用高度技术化或高成本的技术,使许多新发现的方法相对于非技术用户来说相对不可行。在本文中,我们测试了未经修改的GPT 3.5版本、微调版本以及在矢量化的RAG数据库中访问相同未修改模型的情况,这些情况下都加入了基本的、非算法的软提示。在每种情况下,我们测试了模型回答一组100个问题的能力,这些问题主要涉及2021年9月之后发生的事件(即GPT 3.5的训练数据集结束的时间点)。我们发现,如果使用商业平台并应用默认设置以建立一组基准输出,微调模型的性能优于GPT 3.5 Turbo,而RAG方法的表现优于两者。应用软提示显著提高了每种方法的性能。
  • 图表
  • 解决问题
    论文旨在研究如何通过fine-tuning、retrieval-augmented generation(RAG)和soft-prompting等技术来提高大型语言模型的性能,同时使这些技术对于非技术用户也更易于使用。
  • 关键思路
    论文测试了未经修改的GPT 3.5模型、经过fine-tuning的模型以及在访问向量化的RAG数据库时的未经修改模型,同时结合基本的非算法软提示进行测试。结果表明,如果使用商业平台并应用默认设置以建立基准输出集,则经过fine-tuning的模型优于GPT 3.5 Turbo,而RAG方法优于两者。应用软提示显著提高了每种方法的性能。
  • 其它亮点
    实验设计了100个问题的数据集,主要涉及2021年9月之后发生的事件。论文还探讨了如何使技术性强的方法更易于非技术用户使用。论文未开源代码。
  • 相关研究
    相关论文包括:1. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks,作者为 Patrick Lewis、Ethan Perez、Aleksandara Piktus等,来自 Facebook AI Research;2. Fine-Tuning Language Models from Human Preferences,作者为 He He、Hannah Rashkin、Maarten Sap等,来自 Carnegie Mellon University。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论