Towards Semantic Equivalence of Tokenization in Multimodal LLM

简介

多模态大型语言模型（MLLMs）在处理视觉语言任务方面表现出了非凡的能力。其中一个关键点是视觉分词，它涉及将输入的视觉信号有效地转换为对LLMs最有益的特征表示。然而，现有的视觉分词器（用于视觉和语言之间的语义对齐）仍存在问题。现有的方法会过度分割视觉输入，破坏视觉语义的完整性。为了解决这个问题，本文提出了一种新颖的动态语义等效视觉分词器（SeTok），该分词器通过动态聚类算法将视觉特征组成语义单元，可以根据图像复杂度灵活地确定标记数量。由此产生的视觉标记有效地保留了语义完整性，并捕捉了低频和高频的视觉特征。配备SeTok的提议的MLLM（Setokim）在各种任务中显著表现出优越的性能，这一点可以从我们的实验结果中看出。该项目页面位于https://chocowu.github.io/SeTok-web/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决视觉语言任务中的视觉分词问题，既要保持视觉语义完整性，又要捕捉低频和高频的视觉特征。
关键思路

论文提出了一种动态语义等价视觉分词器（SeTok），通过动态聚类算法将视觉特征分组成语义单元，灵活地确定标记数量。
其它亮点

论文提出的SeTok方法能够有效地保持视觉语义完整性和捕捉低频和高频的视觉特征，相比现有的方法具有更好的性能。作者在多个任务上进行了实验，并提供了开源代码。
相关研究

近期的相关研究包括：《ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。

Towards Semantic Equivalence of Tokenization in Multimodal LLM

提问交流

提问交流