- 简介在大型语言模型训练中,通常将输入文档连接在一起,然后分成相等长度的序列,以避免填充标记。尽管它很有效率,但连接方法会损害数据完整性--它不可避免地将许多文档分成不完整的部分,导致过度截断,阻碍模型学习如何组成逻辑连贯、基于完整上下文的事实一致的内容。为了解决这个问题,我们提出了最佳适配装箱法,这是一种可扩展和高效的方法,通过基于长度的组合优化将文档打包到训练序列中。我们的方法完全消除了不必要的截断,同时保持了与连接方法相同的训练效率。来自文本和代码预训练的实证结果表明,我们的方法实现了卓越的性能(例如,阅读理解相对增加了4.7%;上下文跟随增加了16.8%;程序合成增加了9.2%),并有效地减少了高度封闭领域的幻觉,最高可达58.3%。
- 图表
- 解决问题本文旨在解决在大型语言模型训练中,拼接输入文档会破坏数据完整性,导致模型无法学习到逻辑上连贯和事实上一致的内容的问题。
- 关键思路本文提出了最佳适配装箱(Best-fit Packing)的方法,通过长度感知的组合优化将文档打包成训练序列,完全消除不必要的截断,同时保持与拼接相同的训练效率。
- 其它亮点本文实验结果表明,最佳适配装箱方法在文本和代码预训练中均取得了优异的性能,如阅读理解相对提高了4.7%,上下文跟踪提高了16.8%,程序合成提高了9.2%,并有效降低了高斯噪声的影响。
- 最近的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《RoBERTa: A Robustly Optimized BERT Pretraining Approach》。
沙发等你来抢
去评论
评论
沙发等你来抢