- 简介多模态大型语言模型(MLLMs)在处理视觉语言任务方面表现出了非凡的能力。其中一个关键点是视觉分词,它涉及将输入的视觉信号有效地转换为对LLMs最有益的特征表示。然而,现有的视觉分词器(用于视觉和语言之间的语义对齐)仍存在问题。现有的方法会过度分割视觉输入,破坏视觉语义的完整性。为了解决这个问题,本文提出了一种新颖的动态语义等效视觉分词器(SeTok),该分词器通过动态聚类算法将视觉特征组成语义单元,可以根据图像复杂度灵活地确定标记数量。由此产生的视觉标记有效地保留了语义完整性,并捕捉了低频和高频的视觉特征。配备SeTok的提议的MLLM(Setokim)在各种任务中显著表现出优越的性能,这一点可以从我们的实验结果中看出。该项目页面位于https://chocowu.github.io/SeTok-web/。
-
- 图表
- 解决问题本论文试图解决视觉语言任务中的视觉分词问题,既要保持视觉语义完整性,又要捕捉低频和高频的视觉特征。
- 关键思路论文提出了一种动态语义等价视觉分词器(SeTok),通过动态聚类算法将视觉特征分组成语义单元,灵活地确定标记数量。
- 其它亮点论文提出的SeTok方法能够有效地保持视觉语义完整性和捕捉低频和高频的视觉特征,相比现有的方法具有更好的性能。作者在多个任务上进行了实验,并提供了开源代码。
- 近期的相关研究包括:《ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流