- 简介在大型语言模型训练中,通常将输入文档连接在一起,然后分成相等长度的序列以避免填充标记。尽管这种方法很有效,但连接方法会破坏数据完整性——它不可避免地将许多文档分成不完整的片段,导致过度截断,从而阻碍模型学习如何组合逻辑连贯、事实一致、基于完整上下文的内容。为了解决这个问题,我们提出了最佳适配装载法,这是一种可扩展和高效的方法,通过长度感知的组合优化将文档打包到训练序列中。我们的方法完全消除了不必要的截断,同时保留了与连接相同的训练效率。从文本和代码预训练的实证结果表明,我们的方法取得了优异的性能(例如,阅读理解相对提高了4.7%;上下文跟随提高了16.8%;程序综合提高了9.2%),并有效地减少了高度封闭领域的幻觉,最高可达58.3%。
- 图表
- 解决问题本论文旨在解决大型语言模型训练中,拼接输入文档导致数据完整性受损,从而影响模型学习的问题。同时,论文还试图减少领域内幻觉的发生。
- 关键思路论文提出了一种称为Best-fit Packing的方法,通过长度感知的组合优化将文档打包成训练序列,从而完全消除不必要的截断,同时保持与拼接方法相同的训练效率。
- 其它亮点论文的实验结果显示,Best-fit Packing方法相比拼接方法在文本和代码预训练中都取得了更好的性能,例如阅读理解相对提升了4.7%,上下文跟随提升了16.8%,程序合成提升了9.2%。此外,该方法有效地减少了高达58.3%的封闭领域幻觉。
- 相关研究包括但不限于:BERT、GPT等大型语言模型的研究。
沙发等你来抢
去评论
评论
沙发等你来抢