LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

2024年04月29日
  • 简介
    Low Rank Adaptation (LoRA)已成为参数高效微调(Parameter Efficient Fine-Tuning,PEFT)大型语言模型(LLMs)最广泛采用的方法之一。LoRA减少了可训练参数的数量和内存使用,同时实现了与完全微调相当的性能。我们的目标是评估在实际应用中训练和服务于使用LoRA微调的LLMs的可行性。首先,我们测量了在10个基本模型和31个任务中使用量化低秩适配器微调的LLMs的质量,共计310个模型。我们发现,4位LoRA微调模型的平均表现比基本模型高出34个点,比GPT-4高出10个点。其次,我们调查了微调最有效的基本模型,并评估了任务复杂性启发式的相关和预测能力,以预测微调的结果。最后,我们评估了LoRAX的延迟和并发能力,LoRAX是一个开源的多LoRA推理服务器,它使用共享基本模型权重和动态适配器加载,便于部署多个LoRA微调模型在单个GPU上。LoRAX支持LoRA Land,一个网络应用程序,它在单个NVIDIA A100 GPU上托管了25个LoRA微调Mistral-7B LLMs,内存为80GB。LoRA Land突显了使用多个专门的LLMs比使用单个通用LLM更具质量和成本效益的优势。
  • 图表
  • 解决问题
    论文旨在评估使用Low Rank Adaptation (LoRA)方法进行Fine-Tuning的大型语言模型在实际应用中的可行性。研究重点在于评估Fine-Tuning的质量、选择最有效的基础模型以及评估LoRA推理服务器的延迟和并发能力。
  • 关键思路
    使用LoRA方法Fine-Tuning大型语言模型可以显著减少可训练参数和内存使用,同时保持与完全Fine-Tuning相当的性能。LoRA Fine-Tuning的模型质量优于基础模型和GPT-4,并且使用多个专门的LLM比使用单个通用LLM更具成本效益。
  • 其它亮点
    论文评估了使用quantized low rank adapters Fine-Tuning 10个基础模型和31个任务的310个模型的质量。实验结果表明,4位LoRA Fine-Tuning模型的平均性能比基础模型高34个点,比GPT-4高10个点。论文还研究了最有效的基础模型选择和任务复杂性启发式的相关性和预测能力,并评估了LoRAX推理服务器的延迟和并发能力。LoRA Land是一个基于LoRAX的Web应用程序,部署了25个LoRA Fine-Tuned Mistral-7B LLMs,证明了使用多个专门的LLM比使用单个通用LLM更具成本效益。
  • 相关研究
    在此领域的相关研究包括Fine-Tuning方法的改进和优化,例如使用更高级的优化器和正则化方法,以及使用不同的Fine-Tuning策略。其中一些研究包括“Improving Fine-Tuning for Language Modeling”和“Regularizing and Optimizing LSTM Language Models”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论