Cross-modal Knowledge Transfer Learning as Graph Matching Based on Optimal Transport for ASR

2025年05月19日
  • 简介
    将预训练语言模型(PLM)中的语言学知识迁移到声学特征学习中,已被证明可以有效提升端到端自动语音识别(E2E-ASR)的性能。然而,由于模态间固有的差距,对齐语言学与声学表示仍是一个挑战。最优传输(OT)方法通过最小化语言学和声学特征分布之间的 Wasserstein 距离(WD),在缓解这些差距方面显示出潜力。然而,以往基于 OT 的方法忽略了结构化关系,将特征向量视为无序集合。为了解决这一问题,我们提出了图匹配最优传输(GM-OT),该方法将语言学和声学序列建模为结构化的图。其中,节点代表特征嵌入,而边则捕捉时间与顺序关系。GM-OT 同时最小化节点间的 Wasserstein 距离(WD)和边间的 Gromov-Wasserstein 距离(GWD),从而形成了融合的 Gromov-Wasserstein 距离(FGWD)公式。这使得 GM-OT 能够实现结构化对齐,并相比现有的 OT 方法更高效地完成知识迁移。进一步的理论分析表明,以往用于语言学知识迁移的 OT 方法可以被视为我们 GM-OT 框架的一个特例。我们在基于 CTC 的中文 E2E-ASR 系统上评估了 GM-OT,该系统利用 PLM 进行知识迁移。实验结果表明,我们的方法相较于现有最先进模型显著提升了性能,验证了其有效性。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决跨模态知识转移中的表征对齐问题,特别是如何将预训练语言模型(PLM)的语义知识有效迁移到声学特征学习中,以提升端到端自动语音识别(E2E-ASR)系统的性能。这是一个具有挑战性的问题,因为语言和声学模态之间存在固有的差异(即模态间隙)。尽管已有研究尝试通过最优传输(OT)方法缩小这种差距,但它们通常忽略了特征之间的结构化关系。
  • 关键思路
    论文提出了一种新的方法——图匹配最优传输(GM-OT),它将语言和声学序列建模为结构化的图,其中节点表示特征嵌入,边捕捉时间与序列关系。GM-OT不仅最小化了节点之间的Wasserstein距离(WD),还通过Gromov-Wasserstein距离(GWD)对齐边的关系,从而形成融合的Gromov-Wasserstein距离(FGWD)。这种方法能够更有效地进行结构化对齐和知识迁移,超越了现有OT方法仅关注无序集合的局限性。
  • 其它亮点
    1. GM-OT在理论上被证明是先前OT方法的一种泛化形式,后者可以视为GM-OT的一个特例;2. 在中文普通话ASR任务上的实验表明,使用CTC-based E2E-ASR系统结合PLM知识迁移时,GM-OT显著提升了模型性能;3. 研究未提及代码开源情况,但其提出的FGWD框架值得进一步探索,例如应用于其他多模态任务或更复杂的ASR场景;4. 实验设计合理,使用了真实世界的数据集验证方法的有效性。
  • 相关研究
    相关研究包括:1. 使用最优传输(OT)方法进行模态对齐的工作,如‘Optimal Transport for Cross-Modal Alignment’;2. 结合PLM与ASR的研究,如‘Leveraging Pretrained Language Models for End-to-End Speech Recognition’;3. 图神经网络(GNN)在声学特征建模中的应用,如‘Graph Neural Networks for Acoustic Feature Learning’;4. Gromov-Wasserstein距离在多模态学习中的应用,如‘Gromov-Wasserstein Alignment of Word Embeddings’。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问