The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

简介

语言模型在训练分布内的任务上表现出色，但在需要复杂推理的新问题上往往表现不佳。我们研究了测试时训练（TTT）的有效性——在推理过程中使用从输入数据派生的损失函数临时更新模型参数——作为提高模型推理能力的机制，使用抽象与推理语料库（ARC）作为基准。通过系统的实验，我们确定了成功实施TTT的三个关键组件：（1）在类似任务上的初始微调（2）辅助任务格式和增强（3）每个实例的训练。TTT显著提高了在ARC任务上的表现，与基础微调模型相比，准确率最高可提升6倍；将TTT应用于一个80亿参数的语言模型，我们在ARC的公共验证集上达到了53%的准确率，比现有的公开和纯神经方法的最先进水平提高了近25%。通过将我们的方法与最近的程序生成方法结合，我们获得了61.9%的最先进公共验证准确率，与人类平均得分持平。我们的发现表明，显式的符号搜索并不是提高神经语言模型抽象推理能力的唯一途径；在少量样本上继续进行测试时训练同样可以非常有效。
图表
解决问题

该论文旨在解决现有语言模型在处理超出其训练分布范围的新颖复杂推理任务时表现不佳的问题，特别是在抽象和推理能力方面。
关键思路

论文提出了测试时训练（Test-Time Training, TTT）方法，通过在推理过程中临时更新模型参数来提升模型的推理能力。这种方法结合了初始微调、辅助任务格式和增强、以及每实例训练三个关键组件，以显著提高模型在抽象和推理任务上的性能。
其它亮点

1. 实验结果显示，TTT方法在ARC基准上显著提高了模型的准确性，最高可达6倍的改进。 2. 应用TTT方法后，8B参数的语言模型在ARC公共验证集上达到了53%的准确率，比现有的最佳公开神经方法提高了近25%。 3. 通过与程序生成方法集成，实现了61.9%的最新公共验证准确率，与人类平均得分持平。 4. 论文表明，除了显式的符号搜索外，测试时的继续训练也是提升神经语言模型抽象推理能力的有效途径。 5. 论文提供了详细的实验设计和结果分析，使用了ARC数据集，并且代码已开源。
相关研究

1. "Learning to Solve Abstract Reasoning Tasks with Transformers" - 探索使用Transformer模型解决抽象推理任务的方法。 2. "Program Synthesis for Abstract Reasoning" - 研究通过程序合成方法提升模型的抽象推理能力。 3. "Improving Generalization in Abstract Reasoning Tasks via Task-Agnostic Solvers" - 提出了一种任务无关的求解器来改善抽象推理任务中的泛化能力。 4. "Reasoning-Enhanced Pre-training for Few-Shot Learning" - 研究如何通过增强预训练来提高少样本学习中的推理能力。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论