Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition

2024年05月23日
  • 简介
    我们介绍了一种新颖的浅层融合框架——“生成式融合解码”(GFD),用于将大型语言模型(LLMs)集成到多模态文本识别系统中,例如自动语音识别(ASR)和光学字符识别(OCR)。我们推导出必要的公式,使GFD能够跨越不同模型的不匹配标记空间进行操作,通过将文本标记空间映射到字节标记空间,从而在解码过程中实现无缝融合。该框架是即插即用的,兼容各种自回归模型,并且不需要重新训练以进行特征对齐,从而克服了先前融合技术的局限性。我们强调了GFD的三个主要优点:首先,通过简化对齐不同模型样本空间的复杂性,GFD允许LLMs与识别模型一起纠正错误,从而减少计算延迟。其次,GFD充分利用了LLMs的上下文学习能力,增加了长篇语音识别和指令感知语音识别的鲁棒性。第三,GFD使得具有中文文本识别缺陷的识别模型能够与广泛训练的中文LLMs进行融合。我们的评估表明,GFD显著提高了ASR和OCR任务的性能,其中ASR在NTUML2021基准测试中达到了最先进水平。GFD在模型集成方面迈出了重要一步,提供了一种统一的解决方案,可以通过逐步融合广泛应用于利用现有的预训练模型。
  • 作者讲解
  • 图表
  • 解决问题
    GFD旨在解决将语言模型与多模态文本识别系统集成的问题,通过将文本令牌空间映射到字节令牌空间,使GFD能够跨不同模型的不匹配令牌空间进行操作,从而实现无缝融合。
  • 关键思路
    GFD是一个浅层融合框架,可以将大型语言模型与自动语音识别和光学字符识别等多模态文本识别系统集成,不需要重新训练特征对齐,可以实现插拔式操作,同时提高了性能。
  • 其它亮点
    GFD的三个主要优点:1.简化了不同模型样本空间对齐的复杂性,从而使语言模型能够与识别模型一起纠正错误,降低计算延迟;2.充分利用了LLM的上下文学习能力,提高了长篇语音识别和指令感知语音识别的鲁棒性;3.使识别模型在中文文本识别方面不足的情况下,能够与广泛训练的中文LLM进行融合。实验表明,GFD在ASR和OCR任务中显著提高了性能。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Multi-Task Learning for Speech and Speaker Recognition》;2.《End-to-End Speech Recognition with Transformers》;3.《A Survey of Deep Learning for Multimodal Language Analysis》
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问