Lightweight Audio Segmentation for Long-form Speech Translation

2024年06月15日
  • 简介
    语音分割是实际场景中语音翻译系统的重要部分。由于大多数语音翻译模型都是设计用于处理语音段,因此在翻译之前必须将长音频分割成较短的片段。最近,已经开发了数据驱动的语音分割方法。虽然这些方法提高了整体翻译质量,但由于模型和ST系统之间存在不匹配,因此存在性能差距。此外,先前的工作需要大型自监督语音模型,这些模型消耗大量计算资源。在本文中,我们提出了一种分割模型,它具有较小的模型大小,可以实现更好的语音翻译质量。我们提出了一种带标点符号的ASR任务作为分割模型的有效预训练策略。我们还表明,在推理时,适当地将语音分割模型整合到底层ST系统中对于提高整体翻译质量至关重要。
  • 图表
  • 解决问题
    解决语音翻译中语音分割的问题,提高翻译质量
  • 关键思路
    使用小型分割模型和ASR-with-punctuation预训练策略,将语音分割模型与翻译系统有效整合,提高翻译质量
  • 其它亮点
    论文提出了一种小型分割模型和ASR-with-punctuation预训练策略,相比之前的方法更加高效,实验结果表明在保持模型大小的情况下,翻译质量得到了提高。此外,论文还强调了将语音分割模型与翻译系统有效整合的重要性。
  • 相关研究
    最近的相关研究包括《Unsupervised Speech Segmentation using Cross-lingual Pre-training》、《Unsupervised Speech Segmentation with Pseudo Labeling》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论