Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection

向作者提问

NEW

简介

学习如何将预训练语言模型适应于未标记的、分布外数据是一项关键挑战，因为即使这些模型在其训练分布内表现出色，但在结构上新颖的推理任务中往往表现不佳。我们提出了一种新的框架，称为 VDS-TTT——验证器驱动的测试时训练样本选择，以高效解决这一问题。我们使用一个学习到的验证器对生成的回答池进行评分，并仅从排名较高的伪标注样例中选择，用于微调适应。具体来说，对于每个输入查询，我们的大语言模型会生成 N 个候选答案；验证器为每个答案分配一个可靠性分数，而置信度最高且超过固定阈值的回答将与其对应的查询配对，用于测试时训练。我们仅微调低秩 LoRA 适配参数，确保适应的高效性和快速收敛。我们提出的自监督框架是首个通过合成验证器驱动的测试时训练数据来实现模型持续自我改进的方法。在三个不同基准数据集和三种最先进的大语言模型上的实验表明，VDS-TTT 相比基础模型可带来高达 32.29% 的相对提升，相比没有测试时训练的验证器方法则有 6.66% 的增益，突显了其在即时大语言模型适应中的有效性和高效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决大型语言模型在面对未标注、分布外数据时表现不佳的问题，尤其是在结构新颖的推理任务上。这是一个长期存在的挑战，尽管模型在其训练分布内表现出色。
关键思路

论文提出了一种名为VDS-TTT（Verifier-Driven Sample Selection for Test-Time Training）的新框架。其核心思想是利用一个学习到的验证器对生成的回答进行评分，并从中选择高置信度的伪标注样本来进行微调适配。与现有方法不同，VDS-TTT通过仅调整低秩LoRA适配器参数，确保了高效性和快速收敛能力，从而实现连续自改进。
其它亮点

实验结果表明，VDS-TTT在三个不同的基准测试和三种最先进的LLM上实现了高达32.29%的相对改进，并且比无测试时间训练的验证器方法高出6.66%。此外，该框架具有较强的通用性，可以适应多种任务场景。虽然论文未明确提及代码开源，但其实验设计详尽，涵盖多个数据集，为后续研究提供了重要参考。未来可以探索更复杂的验证机制或将其应用于多模态模型。
相关研究

近期相关工作包括：1) 基于提示工程的方法，如Prompt Tuning和Prefix Tuning；2) 测试时间自适应技术，例如Adaptive Prompt Generation；3) 验证器驱动的方法，如Verifier-Augmented Decoding。值得注意的相关研究有《Self-Training with Noisy Data for Language Model Adaptation》和《Efficient Fine-Tuning of Pretrained Models via Low-Rank Approximation》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问