Multi-Convformer: Extending Conformer with Multiple Convolution Kernels

简介

卷积在端到端自动语音识别系统中变得至关重要，因为它们可以高效地建模本地上下文。值得注意的是，它在Conformer中的使用已经比基于Transformer的ASR系统表现更好。虽然Conformer中的卷积模块以外的组件已经得到重新审视，但是修改卷积模块本身的研究却很少。为此，我们引入了Multi-Convformer，它在Conformer的卷积模块中使用多个卷积核，并结合门控机制，有助于更好地建模不同粒度的本地依赖关系。我们的模型在性能上可以与现有的Conformer变体（如CgMLP和E-Branchformer）相媲美，同时更加参数高效。我们在四个不同的数据集和三种不同的建模范式下对我们的方法与Conformer及其变体进行了实证比较，并表现出高达8%的相对词错误率（WER）改进。
图表
解决问题

本论文旨在改进现有的自动语音识别（ASR）系统中的卷积模块，以更好地建模局部依赖关系。
关键思路

论文提出了一种名为Multi-Convformer的方法，它在Conformer的卷积模块中使用多个卷积核，并引入门控机制，以改进对不同粒度的局部依赖关系的建模。
其它亮点

论文在四个不同的数据集和三种不同的建模范式下对其方法进行了实验验证，并与现有的Conformer变体进行了比较。结果表明，Multi-Convformer在参数效率方面更优，同时在词错误率方面取得了高达8%的相对改进。
相关研究

最近的相关研究包括CgMLP和E-Branchformer等Conformer变体，以及其他使用卷积模块进行局部建模的ASR系统的研究。

Multi-Convformer: Extending Conformer with Multiple Convolution Kernels

评论