- 简介最近,Spoken Language Understanding Evaluation(SLUE)一套基准测试任务被引入,以解决需要开放资源和基准测试复杂口语理解(SLU)任务的需求,包括自然语音上的分类和序列生成任务。该基准测试已经展示了使用预训练语音基础模型(SFM)进行这些SLU任务的初步成功。然而,社区仍然缺乏对不同SFM比较效用的细粒度理解。受此启发,我们问:哪些SFM为这些复杂的SLU任务提供了最大的好处,以及最有效的方法是如何将这些SFM纳入考虑的?为了回答这个问题,我们使用多个评估协议对多个监督和自监督的SFM进行了广泛的评估:(i)带轻量级预测头的冻结SFM,(ii)带复杂预测头的冻结SFM,以及(iii)带轻量级预测头的微调SFM。虽然监督SFM在训练时使用了更多的语音识别数据(带标签),但它们并不总是优于自监督SFM;后者往往至少与监督SFM表现一样好,有时甚至更好,特别是在SLUE的序列生成任务中。虽然没有普遍最佳的纳入SFM的方法,但复杂预测头为大多数任务提供了最佳性能,尽管它会增加推理时间。我们还引入了一个开源工具包和性能排行榜SLUE-PERB,用于这些任务和建模策略。
- 图表
- 解决问题论文旨在解决复杂口语理解任务中,选择最有效的预训练语音基础模型(SFM)的问题。同时,论文也探讨了如何最有效地整合这些SFM。
- 关键思路通过对多个受监督和自监督的SFM进行广泛评估,论文发现自监督的SFM在复杂口语理解任务中表现至少与受监督的SFM相当,甚至更好。此外,使用复杂的预测头可以在大多数任务中获得最佳性能,但会增加推理时间。
- 其它亮点论文使用了一个开源工具包和性能排行榜SLUE-PERB进行实验评估。研究人员使用了多个评估协议来评估SFM的效用,并发现自监督的SFM表现良好。论文还提供了一个开源工具包和性能排行榜,可供研究人员进一步研究。
- 最近的相关研究包括使用预训练语言模型的自然语言处理任务,如BERT和GPT。
沙发等你来抢
去评论
评论
沙发等你来抢