- 简介长文本生成,例如小说写作或具有极长背景的篇章级翻译,对当前语言模型提出了重大挑战。现有方法主要集中在通过长度外推等策略来扩展模型的上下文窗口。然而,这些方法在训练和/或推理阶段需要大量的硬件资源。我们提出的方法Temp-Lora引入了一种替代概念。Temp-Lora不依赖于KV缓存来存储所有上下文信息,而是将这些信息直接嵌入模型参数中。在长文本生成的过程中,我们使用一个临时的Lora模块,逐步训练之前生成的文本。这种方法不仅有效地保留了上下文知识,而且由于模块在生成后被丢弃,也防止了对模型参数的任何永久性改变。在PG19语言建模基准测试和GuoFeng篇章级翻译基准测试上进行了广泛的实验,验证了Temp-Lora的有效性。我们的结果表明:1)Temp-Lora显著提高了长文本的生成质量,如在PG19的子集上表现为困惑度下降13.2%,在GuoFeng上表现为困惑度下降29.6%和BLEU分数增加53.2%;2)Temp-Lora与大多数现有的长文本生成方法兼容并增强了它们的性能;3)Temp-Lora可以通过缩短上下文窗口大大降低计算成本。虽然在保证稍微提高生成质量的同时(困惑度下降3.8%),它能够使推理所需的FLOPs减少70.5%,延迟降低51.5%。
- 图表
- 解决问题论文旨在解决长文本生成中的上下文信息处理问题,通过提出一种新的方法Temp-Lora来解决这个问题。
- 关键思路Temp-Lora将上下文信息直接嵌入模型参数中,使用临时的Lora模块来逐步训练生成的文本,从而有效地保存上下文信息,同时避免对模型参数进行永久性修改。
- 其它亮点论文在PG19语言建模基准测试和GuoFeng话语级翻译基准测试上进行了广泛的实验,结果表明Temp-Lora显著提高了长文本生成的质量,并且与现有的长文本生成方法兼容。此外,Temp-Lora还可以通过缩短上下文窗口来大大降低计算成本,同时保持略微的生成质量提高。
- 在这个领域中,最近的相关研究包括:《Scaling Neural Machine Translation》、《Generating Long Sequences with Sparse Transformers》等。
沙发等你来抢
去评论
评论
沙发等你来抢