视频:https://www.youtube.com/watch?v=Of9s8epjflU

PPT:https://awnihannun.com/talks/asr_gtn_nyu.pdf

我们介绍了使用神经模型的语音识别问题,强调了当输入和输出序列的长度不同时,训练和推理的CTC损失。

我们讨论了在推理过程中使用的beam搜索,以及如何使用图Transformer网络(Graph Transformer Network)在训练时对该过程进行建模。图Transformer网络基本上是带有自动微分的加权有限状态自动机,它允许我们将先验编码到图中。有不同类型的加权有限状态和不同的操作,包括并集、克林闭包、交、合成和前向得分。损失函数通常是函数之间的区别。我们可以很容易地实现这些网络使用GTN库。

内容中包含的图片若涉及版权问题,请及时与我们联系删除