Predicting the Order of Upcoming Tokens Improves Language Modeling

向作者提问

NEW

简介

多标记预测（MTP）作为一种辅助目标被提出，用于改进语言模型训练中的下一项预测（NTP），但其提升效果并不一致，在标准自然语言处理（NLP）基准测试中表现欠佳。我们认为，MTP对未来的标记进行精确预测作为辅助损失函数过于困难。因此，我们提出了标记顺序预测（Token Order Prediction，简称TOP），该方法通过使用学习排序（learning-to-rank）损失函数，训练模型根据即将出现的标记与其当前位置的接近程度对其进行排序。与MTP所需的多个Transformer层相比，TOP仅需额外增加一个反嵌入层。我们使用NTP、MTP和TOP目标对参数量分别为3.4亿、18亿和70亿的模型进行了预训练。在八个标准NLP基准测试中的结果显示，即使在模型规模扩大的情况下，TOP整体上仍优于NTP和MTP。我们的代码可在以下地址获取：https://github.com/zaydzuhri/token-order-prediction
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决多标记预测（MTP）在语言模型训练中作为辅助目标表现不稳定、在自然语言处理（NLP）基准任务中表现不佳的问题。作者假设MTP要求模型精确预测未来标记的难度过高，因此限制了其有效性。这是一个在语言模型预训练目标优化方向上的新问题。
关键思路

作者提出了一种新的辅助训练目标——标记顺序预测（Token Order Prediction，TOP），该方法不要求模型精确预测未来的具体标记，而是通过学习排序（learning-to-rank）损失，训练模型根据它们与当前上下文的接近程度对未来的标记进行排序。相比MTP，TOP仅需增加一个非嵌入层，结构更简单，训练效率更高。
其它亮点

1. 提出了一种新的语言模型预训练目标TOP，替代传统的MTP方法。 2. 在340M、1.8B和7B参数规模的模型上进行了实验，验证了TOP在多个NLP基准任务中的有效性。 3. 实验结果表明，TOP在多个标准NLP任务上整体优于NTP和MTP，即使在大规模模型中也表现良好。 4. 代码已开源，便于复现和进一步研究。
相关研究

1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2. GPT-3: Language Models are Few-Shot Learners 3. T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 4. XLNet: Generalized Autoregressive Pretraining and Long-Term Dependency Modeling 5. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问