- 简介我们介绍了STAR(使用锚点表示的流传导),这是一种新型的基于Transformer的模型,旨在实现对流进行高效的序列到序列传导。STAR动态地对输入流进行分段,创建压缩的锚点表示,实现了近乎无损的压缩(12倍)在自动语音识别(ASR)中,并且优于现有的方法。此外,STAR在同时语音转文本任务中表现出更好的分段和延迟-质量平衡,优化延迟、内存占用和质量。
-
- 图表
- 解决问题STAR模型旨在解决流式序列到序列转换中的压缩和延迟问题,同时提高质量和效率。
- 关键思路STAR模型通过动态分段输入流来创建压缩的锚点表示,实现了近乎无损的压缩,并在同时语音转文字任务中展现出优异的分割和延迟质量平衡。
- 其它亮点STAR模型实现了12倍的压缩比,在自动语音识别方面表现优异,同时在同时语音转文字任务中优化了延迟、内存占用和质量。实验使用了多个数据集,并且提供了开源代码。
- 近期相关研究包括:'Towards End-to-End Speech Recognition with Self-Attention','Streaming End-to-End Speech Recognition for Mobile Devices'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流