Scaling up Masked Diffusion Models on Text

2024年10月24日
  • 简介
    掩码扩散模型(MDMs)在语言建模方面展现出潜力,但它们在核心语言任务中的可扩展性和有效性,如文本生成和语言理解,仍需进一步探索。本文首次建立了MDMs的扩展定律,展示了与自回归模型(ARMs)相当的扩展速率和相对较小的计算差距。受其可扩展性的启发,我们训练了一系列参数量高达11亿的MDMs,系统地评估了它们与同等或更大规模的ARMs的性能对比。充分利用MDMs的概率公式,我们提出了一种简单而有效的无监督分类器自由引导方法,有效利用大规模未配对数据,提升了条件推理的性能。在语言理解方面,11亿参数的MDM表现出竞争力,超过了更大的15亿参数GPT-2模型,在八个零样本基准测试中的四个上表现更优。在文本生成方面,与利用KV缓存的ARMs相比,MDMs提供了灵活的权衡:MDMs在性能上与ARMs相当,同时速度快1.4倍,或者在更高的计算成本下实现比ARMs更高的质量。此外,MDMs解决了ARMs面临的挑战性任务,通过有效地处理双向推理和适应数据的时间变化。值得注意的是,11亿参数的MDM打破了更大规模的ARMs(如Llama-2(130亿参数)和GPT-3(1750亿参数))在使用更多数据和计算时遇到的“反向诅咒”。我们的代码可在以下地址获取:[https://github.com/ML-GSAI/SMDM](https://github.com/ML-GSAI/SMDM)。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在探讨掩码扩散模型(MDMs)在语言建模任务中的可扩展性和有效性,特别是在文本生成和语言理解等核心语言任务上的表现。这是一个相对新颖的问题,因为尽管MDMs在其他领域显示出潜力,但其在语言任务中的应用仍需进一步探索。
  • 关键思路
    论文的关键思路是建立MDMs的首个扩展定律,并通过训练具有高达11亿参数的MDM模型来系统地评估其性能。此外,提出了一种简单的无监督分类器自由引导方法,有效利用大规模未配对数据,提升条件推理的性能。这一思路的新颖之处在于它不仅证明了MDMs在计算成本上的竞争力,还展示了其在处理双向推理和适应数据时间变化方面的优势。
  • 其它亮点
    论文通过多个实验验证了MDMs在零样本基准测试中的竞争力,尤其是在语言理解和文本生成任务上。11亿参数的MDM模型在四个零样本基准测试中超过了15亿参数的GPT-2模型。此外,MDMs在文本生成任务中表现出灵活性,可以在性能和速度之间进行权衡。论文还提供了开源代码,便于后续研究者复现和进一步探索。未来的工作可以集中在更大型的MDM模型上,以及在更多实际应用场景中的评估。
  • 相关研究
    最近在该领域的相关研究包括:1.《Leveraging Pre-trained Models for Few-shot Learning》探讨了预训练模型在少样本学习中的应用。2.《Bidirectional Transformers for Conditional Sequence Generation》研究了双向Transformer在条件序列生成中的效果。3.《Efficient Fine-tuning of Language Models with Adapter Modules》提出了使用适配器模块高效微调语言模型的方法。4.《Scalable Diffusion Models for Text-to-Image Synthesis》则关注扩散模型在文本到图像合成中的扩展性。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问