Streaming Sequence Transduction through Dynamic Compression

NEW

简介

我们介绍了STAR（使用锚点表示的流传导），这是一种新型的基于Transformer的模型，旨在实现对流进行高效的序列到序列传导。STAR动态地对输入流进行分段，创建压缩的锚点表示，实现了近乎无损的压缩（12倍）在自动语音识别（ASR）中，并且优于现有的方法。此外，STAR在同时语音转文本任务中表现出更好的分段和延迟-质量平衡，优化延迟、内存占用和质量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

STAR模型旨在解决流式序列到序列转换中的压缩和延迟问题，同时提高质量和效率。
关键思路

STAR模型通过动态分段输入流来创建压缩的锚点表示，实现了近乎无损的压缩，并在同时语音转文字任务中展现出优异的分割和延迟质量平衡。
其它亮点

STAR模型实现了12倍的压缩比，在自动语音识别方面表现优异，同时在同时语音转文字任务中优化了延迟、内存占用和质量。实验使用了多个数据集，并且提供了开源代码。
相关研究

近期相关研究包括：'Towards End-to-End Speech Recognition with Self-Attention'，'Streaming End-to-End Speech Recognition for Mobile Devices'等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问