End-to-End Speech-to-Text Translation: A Survey

2023年12月02日
  • 简介
    语音转文本翻译是将一种语言的语音信号转换为另一种语言的文本的任务。它在许多领域中都有应用,例如无需手动操作的通信、口述、视频讲座转录和翻译等。传统的ST翻译依赖于自动语音识别(ASR)和机器翻译(MT)模型,它们分别识别口语和将转录的文本翻译成目标语言。但是,这种分离的模型容易出现级联错误传播和高资源和培训成本的问题。因此,研究人员一直在探索用于ST翻译的端到端(E2E)模型。然而,据我们所知,目前还没有对现有E2E ST工作的综合评估。因此,本文对这一方向的工作进行了讨论,旨在提供对用于ST任务的模型、度量和数据集的全面评估,并提供挑战和未来研究方向的新见解。我们相信,这篇综述对于从事各种ST模型应用的研究人员将会有所帮助。
  • 图表
  • 解决问题
    这篇论文旨在综述当前端到端语音翻译模型的研究进展,探讨其解决的问题和验证的假设。
  • 关键思路
    该论文提出了端到端语音翻译模型的解决方案,避免了传统语音翻译模型的级联错误传播和高资源和训练成本的问题。
  • 其它亮点
    该论文对端到端语音翻译模型的使用、评估指标和数据集进行了全面的综述,并提出了未来研究的方向和新见解。实验设计详尽,使用了多个数据集,并提供了开源代码。值得深入研究的工作包括如何进一步提高模型的性能和准确性。
  • 相关研究
    最近的相关研究包括“End-to-End Speech Translation with Knowledge Distillation”,“Sequence-to-sequence models for speech-to-text translation”,“A Comparative Study of End-to-End Models for Speech Translation”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论