Text-to-LoRA: Instant Transformer Adaption

2025年06月06日
  • 简介
    虽然基础模型为快速生成内容提供了一种通用工具,但它们通常需要针对特定任务进行调整。传统上,这一过程涉及精心策划数据集以及对底层模型的反复微调。微调技术使从业者能够将基础模型适应许多新应用,但这种方法不仅成本高昂且耗时较长,而且对超参数的选择极为敏感。为克服这些局限性,我们提出了文本到LoRA(T2L),这是一种能够根据目标任务的自然语言描述实时调整大型语言模型(LLMs)的模型。T2L 是一个超网络,经过训练后可以通过一次低成本的前向传播来构建 LoRAs。在使用包含 9 个预训练 LoRA 适配器(如 GSM8K、Arc 等)的数据集对 T2L 进行训练后,我们发现,通过 T2L 即兴重建的 LoRA 实例在相应测试集上的表现与任务专用适配器相匹配。此外,T2L 能够压缩数百个 LoRA 实例,并以零样本的方式推广到完全未见过的任务。这种方法为实现基础模型专业化的民主化迈出了重要一步,并能够在极低计算需求下实现基于语言的模型调整。 我们的代码可在以下链接获取:https://github.com/SakanaAI/text-to-lora
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)任务特定适配过程中昂贵的微调成本和对大量数据的依赖问题。这是一个现有问题,但本研究提出了一种全新的方法来降低这种成本。
  • 关键思路
    论文的关键思路是引入Text-to-LoRA(T2L),这是一种基于自然语言描述生成LoRA(Low-Rank Adaptation)实例的超网络。通过训练T2L学习从文本中构造LoRA权重,从而实现无需重新训练即可快速适配LLM的任务。相比传统微调方法,T2L显著减少了计算需求,并能在零样本情况下泛化到未见过的任务。
  • 其它亮点
    1. T2L在9个预训练LoRA适配器上进行训练后,能够重建与任务特定适配器性能匹配的LoRA实例;2. 实验表明T2L可以压缩数百个LoRA实例并成功零样本泛化到新任务;3. 论文提供了开源代码(https://github.com/SakanaAI/text-to-lora),便于复现和进一步研究;4. 研究值得继续探索的方向包括如何扩展到多模态任务以及更复杂的应用场景。
  • 相关研究
    近期相关研究包括:1. LoRA本身作为低秩适配技术的研究('LoRA: Low-Rank Adaptation of Large Language Models');2. P-Tuning系列工作,利用提示工程来微调预训练模型('GPT Understands, Too');3. Hypernetworks在其他领域的应用(如图像生成中的'Super-Resolution Knowledge in Transfer Learning via Hypernetworks')。此外,也有类似的工作探讨了参数高效迁移学习(PETL)的方法,例如BitFit和Adapter Dropout。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论