- 简介本研究提出了一种正则化技术,有助于从零开始训练视觉和视听语音识别模型(VSR和AVSR)。这种方法称为MSRS(从零开始的多模态语音识别),引入了一种稀疏正则化,可以在训练开始时快速学习稀疏结构,其梯度流比密集等效模型更健康。一旦稀疏掩码稳定,我们的方法允许过渡到密集模型或通过更新非零值来保持稀疏模型。MSRS在LRS3基准测试中实现了竞争性的VSR和AVSR结果,WER分别为21.1%和0.9%,同时将训练时间缩短至少2倍。我们探索了其他稀疏方法,并表明只有MSRS通过隐式屏蔽受消失梯度影响的权重,才能从零开始训练。
- 图表
- 解决问题论文旨在提出一种新的正则化技术,以便从头开始训练视觉和视听语音识别模型(VSR和AVSR)。
- 关键思路MSRS是一种稀疏正则化技术,可以在训练开始时快速学习密集模型内的稀疏结构,从而获得比密集等价物更健康的梯度流。通过更新非零值,该方法允许从稀疏模型过渡到密集模型。
- 其它亮点MSRS在LRS3基准测试中实现了竞争性的结果,在VSR和AVSR上的WER分别为21.1%和0.9%,同时将训练时间缩短至少2倍。该论文探索了其他稀疏方法,并表明只有MSRS可以通过隐式屏蔽受到消失梯度影响的权重来从头开始训练。
- 最近的相关研究包括“Deep Residual Learning for Image Recognition”和“Visualizing and Understanding Convolutional Networks”。
沙发等你来抢
去评论
评论
沙发等你来抢