Streaming Sequence Transduction through Dynamic Compression

2024年02月02日
  • 简介
    我们介绍了STAR(使用锚点表示的流传导),这是一种新型的基于Transformer的模型,旨在实现对流进行高效的序列到序列传导。STAR动态地对输入流进行分段,创建压缩的锚点表示,实现了近乎无损的压缩(12倍)在自动语音识别(ASR)中,并且优于现有的方法。此外,STAR在同时语音转文本任务中表现出更好的分段和延迟-质量平衡,优化延迟、内存占用和质量。
  • 作者讲解
  • 图表
  • 解决问题
    STAR模型旨在解决流式序列到序列转换中的压缩和延迟问题,同时提高质量和效率。
  • 关键思路
    STAR模型通过动态分段输入流来创建压缩的锚点表示,实现了近乎无损的压缩,并在同时语音转文字任务中展现出优异的分割和延迟质量平衡。
  • 其它亮点
    STAR模型实现了12倍的压缩比,在自动语音识别方面表现优异,同时在同时语音转文字任务中优化了延迟、内存占用和质量。实验使用了多个数据集,并且提供了开源代码。
  • 相关研究
    近期相关研究包括:'Towards End-to-End Speech Recognition with Self-Attention','Streaming End-to-End Speech Recognition for Mobile Devices'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问