EfficientASR: Speech Recognition Network Compression via Attention Redundancy and Chunk-Level FFN Optimization

2024年04月30日
  • 简介
    近年来,Transformer网络在语音识别任务中表现出了卓越的性能。然而,由于高计算和存储资源要求,它们的部署面临挑战。为了解决这个问题,本文提出了一个轻量级模型EfficientASR,旨在增强Transformer模型的通用性。EfficientASR采用了两个主要模块:共享残差多头注意力(SRMHA)和块级前馈网络(CFFN)。SRMHA模块有效地减少了网络中的冗余计算,而CFFN模块捕捉空间知识并减少了参数数量。EfficientASR模型的有效性在两个公共数据集Aishell-1和HKUST上得到了验证。实验结果表明,与基线Transformer网络相比,参数数量减少了36%,在Aishell-1和HKUST数据集上的字符错误率(CER)分别提高了0.3%和0.2%。
  • 图表
  • 解决问题
    EfficientASR:提高Transformer网络的多功能性,解决高计算和存储资源需求的问题。
  • 关键思路
    EfficientASR采用了Shared Residual Multi-Head Attention(SRMHA)和Chunk-Level Feedforward Networks(CFFN)两个模块,分别减少冗余计算和参数数量,提高了Transformer网络的效率。
  • 其它亮点
    论文在Aishell-1和HKUST两个公共数据集上验证了EfficientASR模型的有效性,相比基线Transformer网络,参数减少了36%,同时CER分别提高了0.3%和0.2%。此外,论文还提供了开源代码。
  • 相关研究
    与EfficientASR相关的研究包括:1. ESPnet:一个端到端的语音处理工具包;2. Conformer:一种新型的轻量级Transformer网络。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论