Harmonizing Visual Text Comprehension and Generation

向作者提问

NEW

简介

本文提出了TextHarmony，这是一个统一且多功能的多模态生成模型，能够熟练理解和生成视觉文本。同时生成图像和文本通常会导致性能下降，因为视觉和语言模态之间固有的不一致性。为了克服这个挑战，现有方法采用模态特定的数据进行监督微调，需要不同的模型实例。我们提出了Slide-LoRA，它动态聚合模态特定和模态不可知的LoRA专家，部分解耦多模态生成空间。Slide-LoRA在单个模型实例中协调生成视觉和语言，从而促进更统一的生成过程。此外，我们开发了一个高质量的图像标题数据集DetailedTextCaps-100K，使用一个复杂的闭源MLLM合成，以进一步增强视觉文本生成能力。在各种基准测试中进行的全面实验证明了所提出方法的有效性。TextHarmony在Slide-LoRA的支持下，仅增加了2%的参数，就实现了与模态特定微调结果相当的性能，并在视觉文本理解任务中平均提高了2.5％，在视觉文本生成任务中提高了4.0％。我们的工作勾勒出了视觉文本领域内多模态生成的一种集成方法的可行性，为后续研究奠定了基础。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决同时生成图像和文本时，视觉和语言模态之间的矛盾导致性能下降的问题。现有方法需要使用模态特定数据进行监督微调，需要不同的模型实例。作者提出了Slide-LoRA，部分解耦多模态生成空间，实现视觉和语言的统一生成过程。
关键思路

Slide-LoRA动态聚合模态特定和模态不可知的LoRA专家，将视觉和语言的生成部分解耦，从而实现更统一的生成过程。作者还开发了高质量的图像字幕数据集DetailedTextCaps-100K，进一步提高了视觉文本生成能力。
其它亮点

本论文提出了一个统一且多才多艺的多模态生成模型TextHarmony，展现了Slide-LoRA的有效性。作者的方法在各种基准测试中都表现出色，TextHarmony的性能与模态特定微调结果相当，而仅增加了2％的参数，视觉文本理解任务平均提高了2.5％，视觉文本生成任务平均提高了4.0％。作者开发的DetailedTextCaps-100K数据集是高质量的，能够提高视觉文本生成的能力，值得关注。
相关研究

近期在这个领域中，还有一些相关的研究，如《Image Captioning with Semantic Attention》、《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问