StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection

简介

流式语音转文本翻译（StreamST）是指在不断接收音频流的同时自动翻译语音的任务。与处理预分段语音的SimulST不同，StreamST面临处理连续和无界音频流的挑战。这需要额外的决策来决定保留先前历史记录的内容，但由于延迟和计算限制，完全保留先前历史记录是不切实际的。尽管实时ST在现实世界中有很高的需求，但有关流式翻译的研究仍然有限，现有的工作仅集中在SimulST上。为了填补这一空白，我们介绍了StreamAtt，第一个StreamST策略，并提出了StreamLAAL，第一个旨在与SimulST现有度量标准相比较的StreamST延迟度量标准。通过对MuST-C v1.0的所有8种语言进行广泛的实验，我们证明了StreamAtt相对于朴素的流式基线和相关的最先进的SimulST策略的有效性，为StreamST研究迈出了第一步。
图表
解决问题

论文旨在解决流式语音翻译的问题，即在不断接收音频流的同时自动翻译语音。当前研究主要集中在预先分段的SimulST上，而缺乏对于StreamST的研究。
关键思路

论文提出了第一个StreamST策略StreamAtt，并设计了第一个可与SimulST现有度量相比较的StreamST延迟度量StreamLAAL。
其它亮点

论文使用MuST-C v1.0的8种语言进行了广泛实验，证明了StreamAtt相对于基线和现有SimulST策略的有效性。论文为StreamST领域的研究提供了第一步。
相关研究

近期在该领域的相关研究包括：SimulST策略的研究。

StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection

评论