标题:莫斯科物理技术学院、马萨诸塞州洛厄尔大学|Multi-Stream Transformers(多流变换器)

简介:基于变换器的编码器-解码器模型在每个编码器层之后产生一个融合的符号级表示。 我们调查结合在编码过程结束并允许编码器保留效果并探索替代的假设。 在编码器最后,我们设计并检查了一个多流变换器架构并发现分裂变换器编码器变成多个编码器流并允许模型合并多个代表性假设提高了性能,并通过在第一个之间添加跳过连接和最终的编码器层获得了进一步的改进。

论文下载:https://arxiv.org/pdf/2107.10342v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除