- 简介将预训练的基于文本的大型语言模型(LLM)与语音输入集成,实现了各种语音任务的指令跟随能力。这种集成需要使用语音编码器、语音适配器和在不同任务上训练的LLM。我们提出使用离散语音单元(DSU)而不是连续值语音编码器输出,通过语音适配器将其转换为LLM令牌嵌入空间。我们使用自监督语音编码器生成DSU,然后使用k-means聚类算法进行聚类。所提出的模型在来自已知/未知领域的语音输入上表现出鲁棒性,并具有口语问答中的指令跟随能力。我们还探索了从自监督语音编码器的不同层中提取的各种类型的DSU,以及Mel频率倒谱系数(MFCC)。我们的发现表明,ASR任务和数据集对于口语问答任务的指令调整并不重要。
-
- 图表
- 解决问题本论文试图解决将预训练的文本大型语言模型与语音输入集成以实现各种语音任务的问题,提出使用离散语音单元(DSU)代替连续值语音编码器输出的方法。
- 关键思路本论文的关键思路是使用自监督语音编码器和k-means聚类生成DSU,然后使用语音适配器将其转换为LLM令牌嵌入空间。在口语问答任务中,该模型表现出鲁棒的性能。
- 其它亮点本论文使用自监督语音编码器和k-means聚类生成DSU,提出了一种新的方法来解决语音输入与预训练的LLM集成的问题。实验结果表明,该模型在不同领域的口语输入中表现出鲁棒性,并且具有指令遵循能力。研究者还探索了从不同层次的自监督语音编码器中提取的DSU和Mel频率倒谱系数(MFCC),并发现在口语问答任务中,ASR任务和数据集并不是关键因素。
- 最近的相关研究包括:1. 《End-to-End ASR: from Supervised to Semi-Supervised Learning with Modern Architectures》;2. 《A Survey on Deep Learning for Multimodal Language Processing》;3. 《A Review of Recent Advances in Deep Learning》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流