With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation

简介

长文本生成，例如小说写作或具有极长背景的篇章级翻译，对当前语言模型提出了重大挑战。现有方法主要集中在通过长度外推等策略来扩展模型的上下文窗口。然而，这些方法在训练和/或推理阶段需要大量的硬件资源。我们提出的方法Temp-Lora引入了一种替代概念。Temp-Lora不依赖于KV缓存来存储所有上下文信息，而是将这些信息直接嵌入模型参数中。在长文本生成的过程中，我们使用一个临时的Lora模块，逐步训练之前生成的文本。这种方法不仅有效地保留了上下文知识，而且由于模块在生成后被丢弃，也防止了对模型参数的任何永久性改变。在PG19语言建模基准测试和GuoFeng篇章级翻译基准测试上进行了广泛的实验，验证了Temp-Lora的有效性。我们的结果表明：1）Temp-Lora显著提高了长文本的生成质量，如在PG19的子集上表现为困惑度下降13.2%，在GuoFeng上表现为困惑度下降29.6%和BLEU分数增加53.2%；2）Temp-Lora与大多数现有的长文本生成方法兼容并增强了它们的性能；3）Temp-Lora可以通过缩短上下文窗口大大降低计算成本。虽然在保证稍微提高生成质量的同时（困惑度下降3.8%），它能够使推理所需的FLOPs减少70.5%，延迟降低51.5%。
图表
解决问题

论文旨在解决长文本生成中的上下文信息处理问题，通过提出一种新的方法Temp-Lora来解决这个问题。
关键思路

Temp-Lora将上下文信息直接嵌入模型参数中，使用临时的Lora模块来逐步训练生成的文本，从而有效地保存上下文信息，同时避免对模型参数进行永久性修改。
其它亮点

论文在PG19语言建模基准测试和GuoFeng话语级翻译基准测试上进行了广泛的实验，结果表明Temp-Lora显著提高了长文本生成的质量，并且与现有的长文本生成方法兼容。此外，Temp-Lora还可以通过缩短上下文窗口来大大降低计算成本，同时保持略微的生成质量提高。
相关研究

在这个领域中，最近的相关研究包括：《Scaling Neural Machine Translation》、《Generating Long Sequences with Sparse Transformers》等。

With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation

评论