引入N-gram改进Transformer架构，ACL匿名论文超越Primer等基准

近日，一篇匿名提交给自然语言处理顶会 ACL 的论文《 N-grammer: Augmenting Transformers with latent n-grams 》中，研究者受到统计语言建模的启发，通过从文本序列的离散潜在表示构建 n-gram 来增强模型，进而对 Transformer 架构进行了一个简单而有效的修改，称为 N-grammer。

具体地，N-grammer 层通过在训练期间将潜在 n-gram 表示合并到模型中来提高语言模型的效率。由于 N-grammer 层仅在训练和推理期间涉及稀疏操作，研究者发现具有潜在 N-grammer 层的 Transformer 模型可以匹配更大的 Transformer，同时推理速度明显更快。在 C4 数据集上对语言建模的 N-grammer 进行评估表明，本文提出的方法优于 Transformer 和 Primer 等基准。

论文地址：https://openreview.net/pdf?id=GxjCYmQAody

在网络高层次上，该研究引入了一个简单的层，该层基于潜在 n-gram 用更多的内存来增强 Transformer 架构。一般来说，N-grammer 层对于任意 N-gram 来说已经足够了，该研究仅限于使用 bi-gram，以后将会研究高阶 n-gram。这个简单的层由以下几个核心操作组成：

给定文本的 uni-gram 嵌入序列，通过 PQ （Product Quantization）推导出离散潜在表示序列；
推导潜在序列 bi-gram 表示；
通过哈希到 bi-gram 词汇表中查找可训练的 bi-gram 嵌入；
将 bi-gram 嵌入与输入 uni-gram 嵌入相结合。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

引入N-gram改进Transformer架构，ACL匿名论文超越Primer等基准

评论列表

评论