OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning

简介

本文研究了大型语言模型（LLMs）的快速发展如何改变自然语言处理任务，但LLMs的巨大体量也给训练或微调带来了重大挑战。虽然低秩适应（LoRA）等参数高效方法已经流行，但它们通常在性能上不如完全秩的微调。本文提出了一种新的内存高效微调方法——基于LLMs层次异常值分布的异常值加权层次采样低秩投影（OwLore），它通过动态采样预训练层来微调，而不是添加额外的适配器。作者首先通过重尾自正则化理论（HT-SR）解释了异常值现象，发现具有更多异常值的层往往更重尾，因此训练效果更好。受此发现启发，OwLore为具有更多异常值的层分配更高的采样概率，以更好地利用预训练LLMs中存储的知识。为了进一步减轻微调的内存需求，作者将梯度低秩投影集成到方法中，这有助于以低秩方式高效地训练每个层。通过结合低秩和最优层次采样的高效特性，OwLore显著改善了LLMs修剪中的内存性能权衡。作者在包括LLaMa2、LLaMa3和Mistral在内的各种体系结构上进行了大量实验，表明OwLore始终优于基线方法，包括完全微调。具体而言，在常识推理基准测试中，OwLore平均准确率提高了1.1％，在MMLU上提高了3.0％，在MT-Bench上提高了10％，同时更加内存高效。OwLore使我们能够使用仅21GB的内存微调LLaMa2-7B。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大型语言模型在训练或微调中所面临的内存问题，提出一种新的内存高效的微调方法。
关键思路

论文提出了一种新的微调方法，即Outlier-weighed Layerwise Sampled Low-Rank Projection (OwLore)，通过动态抽样预训练层来微调，同时结合梯度低秩投影，以实现内存高效的微调。
其它亮点

论文在多个架构上进行了广泛的实验，包括LLaMa2、LLaMa3和Mistral，并展示了OwLore相对于基线方法的优越性能。OwLore在Commonsense Reasoning基准测试中平均准确率提高了1.1％，在MMLU上提高了3.0％，在MT-Bench上提高了10％。同时，OwLore的内存使用效率也得到了显著提高。
相关研究

最近的相关研究包括低秩适应（LoRA）等参数高效方法，以及其他的微调方法，如Adaptor2Vec和Layerwise Coordination。

OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning

提问交流

提问交流