- 简介本文研究了大型语言模型(LLMs)的快速发展如何改变自然语言处理任务,但LLMs的巨大体量也给训练或微调带来了重大挑战。虽然低秩适应(LoRA)等参数高效方法已经流行,但它们通常在性能上不如完全秩的微调。本文提出了一种新的内存高效微调方法——基于LLMs层次异常值分布的异常值加权层次采样低秩投影(OwLore),它通过动态采样预训练层来微调,而不是添加额外的适配器。作者首先通过重尾自正则化理论(HT-SR)解释了异常值现象,发现具有更多异常值的层往往更重尾,因此训练效果更好。受此发现启发,OwLore为具有更多异常值的层分配更高的采样概率,以更好地利用预训练LLMs中存储的知识。为了进一步减轻微调的内存需求,作者将梯度低秩投影集成到方法中,这有助于以低秩方式高效地训练每个层。通过结合低秩和最优层次采样的高效特性,OwLore显著改善了LLMs修剪中的内存性能权衡。作者在包括LLaMa2、LLaMa3和Mistral在内的各种体系结构上进行了大量实验,表明OwLore始终优于基线方法,包括完全微调。具体而言,在常识推理基准测试中,OwLore平均准确率提高了1.1%,在MMLU上提高了3.0%,在MT-Bench上提高了10%,同时更加内存高效。OwLore使我们能够使用仅21GB的内存微调LLaMa2-7B。
-
- 图表
- 解决问题论文旨在解决大型语言模型在训练或微调中所面临的内存问题,提出一种新的内存高效的微调方法。
- 关键思路论文提出了一种新的微调方法,即Outlier-weighed Layerwise Sampled Low-Rank Projection (OwLore),通过动态抽样预训练层来微调,同时结合梯度低秩投影,以实现内存高效的微调。
- 其它亮点论文在多个架构上进行了广泛的实验,包括LLaMa2、LLaMa3和Mistral,并展示了OwLore相对于基线方法的优越性能。OwLore在Commonsense Reasoning基准测试中平均准确率提高了1.1%,在MMLU上提高了3.0%,在MT-Bench上提高了10%。同时,OwLore的内存使用效率也得到了显著提高。
- 最近的相关研究包括低秩适应(LoRA)等参数高效方法,以及其他的微调方法,如Adaptor2Vec和Layerwise Coordination。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流