01

引言

最近,⼤型语⾔模型(LLMs)的成功已逐渐扩展到多模态领域,通过整合视觉编码器和有效的跨模态对⻬策略,多模态⼤模型(LMMs)已能处理图像和⽂本的复合任务。然⽽,尽管LMMs在各种场景任务中展现出了强⼤的潜⼒,但它们在复杂任务上的表现依然受限于传统的单步推理范式,⽆法有效完成多步推理才能解决的任务。⽐如GPT-4V,在处理涉及空间关系和多物体交互的复杂推理任务时,往往⼒不从⼼。我们认为这主要是源于(1)这是因为当前的模型难以在单⼀的预测步骤中理解和分析多个物体的动态关系,缺乏合适的范式帮助模型利⽤多模态信息构建有效的推理过程;(2)模型内部的跨模态信息理解能⼒不⾜,⽆法有效将⽂本grounding到对应的视觉信息,往往会导致幻觉的产⽣,给⻓序列的推理带来了不可靠性。

为了应对这⼀挑战,复旦⼤学数据智能与社会计算实验室(DISC)提出了⼀种解决⽅案叫做 “VoCoT(Visually grounded object-centric Chain-of-Thought)”,⼀种专⻔针对多模态⼤模型设计的、视觉引导的物体中⼼链式思维(Chain-of-Thought,CoT)推理框架。VoCoT的关键在于两点:(1)围绕物体作为跨模态共享信息,建⽴有效的推理路径,并以物体为推理锚点构建跨模态的联系;(2)以visually-grounded的形式表示物体,即<⽂本描述,视觉坐标,视觉特征>三元组,其中的坐标要求模型显式地将物体对⻬到视觉信号,每个物体的视觉特征则由本⽂提出的⼀种名为RefBind的机制⾼效地基于坐标得到,帮助模型类似⼈类在推理过程中不断参考(refer)物体对应的视觉信息。最终,VoCoT能够构建多模态信息交错的推理路径,并在路径中引⼊跨模态对⻬的锚点信息。

基于VoCoT的设计,本⼯作构建并开源了(1)以物体为中⼼的⾼质量多模态COT指令微调数据集(VoCoT-Instruct80K),(2)采⽤RefBind机制的多模态模型VolCano-7b。在有限的图⽚输⼊分辨率下,也能够以VoCoT的形式进⾏多步推理,在各类场景中展示出卓越的性能,特别是在那些要求复杂推理的任务中,其表现甚⾄超越了GPT-4V等顶尖模型。下图给出了 Volcano 采⽤以物体作为多步推理锚点的两个案例,可以看到当采⽤VoCoT形式输出时,多模态模型的幻觉明显减少,并且回答的推理过程具有了⼀些可解释性。

图1:VolCano 输出Case与 GPT-4V 对⽐

⽬前代码、数据和模型都已开源: 

  • 论⽂地址:https://arxiv.org/abs/2405.16919

  • 代码地址https://github.com/RupertLuo/VoCoT

  • VoCoT-Instruct-80K:https://huggingface.co/datasets/luoruipu1/VoCoT

  • VolCano-7b:https://huggingface.co/luoruipu1/Volcano-7b



02

方法介绍

VoCoT 数据形式

纯⽂本的CoT要求多模态⼤模型模型(LMMs)基于提供的上下⽂进⾏逐步推理。为了在多模态上下⽂中构建有效且可靠的推理路径,VoCoT定义了两个关键特征:

1. 物体为中⼼:图像中的物体是基本的语义单元,可以作为锚点来连接多模态上下⽂信息。因此,VoCoT需要包含重要物体,并随后提取并分析相关的信息

2. 视觉定位:VoCoT中包含的关键物体应由“<⽂本描述, 视觉坐标, 视觉物体特征>”的元组表示。模型在推理过程中要求⽣成对应的坐标来显式定位图像中的物体,⽽视觉表示则增强了跨模态推理路径的相关性。


构建VoCoT数据集

当前主流的多模态指令微调数据集,如LLaVA-Instruct-150K等,均不符合VoCoT数据形式的要求,即:(1)对⼈类指令的回答需包含多步推理过程;(2)回答需包含视觉定位的物体中⼼信息,即具有对应坐标的物体。本节将介绍从三种不同类型数据源构建符合VoCoT格式数据集的流程。

1. Type 1:GQA源

GQA是⼀个VQA数据集,其中包含了结构化信息:每张图⽚配有⼀个场景图,以及针对每个问答对的类SQL推理路径。可以基于规则的⽅法将SQL类查询语句和答案转换为流畅完整的推理路径。同时利⽤GQA源中的物体框补充回答中的物体锚点信息。

图2: 类型1 VoCoT数据样例

2. Type 2:基于VQA的源

另⼀种直观的构建⽅法是在问题到答案的过程中补充多步推理过程,形成VoCoT格式的数据。借助GPT-4V的能⼒,在图像、问题、答案及图像内物体信息的基础上⽣成推理路径。⽂中通过in-context learning 的⽅式控制输出格式。

图3: 类型2 VoCoT 数据样例

3. Type 3:仅图像源

尽管前两种构建⽅法有效,但⽣成的数据受限于现有问题。⽂中介绍为了增强问题和推理逻辑的丰富性,该⼯作利⽤GPT-4V强⼤的⽣成能⼒扩展数据集。通过设计准确详细的提示以及in-context样例,仅输⼊GPT-4V图⽚和图⽚中所有物体的框,让其⽣成复杂的问题,以及VoCoT格式的推理路径和答案。

图4: 类型3 VoCoT数据样例


最终三种类型的数据组成了VoCoT-Instruct-80K。更多关于数据集构建过程的细节,包括基于规则的转换⽅法、GPT-4V的提示和质量控制⽅法等,请参考论⽂中的细节。


VolCano模型

图5:VolCano的模型架构
模型基础架构 

如图5所示,VolCano和⽬前流⾏的多模态⼤模型架构类似:
1. 采⽤了CLIP ViT-L/14作为视觉编码器,Mistral-Instruct-v0.2-7B作为语⾔模型基座,视觉表示则通过MLP层映射到语⾔模型中。
2. VolCano以⾃回归的⽅式建模序列,其中图⽚和物体可以存在于其中的任何位置。
3. 按照VoCoT的要求,重要的物体以<⽂本,坐标,视觉特征>来表示,⽐如"dog [c]0.27, 0.08, 0.92, 0.81[/c] V"。其中[c]和[/c]代表坐标的开始和结束,坐标以字符串形式表示,V是对应区域的视觉信号,由后续介绍的RefBind机制⾼效计算得到。
4. 在⽣成过程中,每当⽣成到[/c]时,则⾃动激活RefBind根据[c]和[/c]之间的坐标计算对应视觉特征。


RefBind机制


图6:RefBind机制说明
RefBind机制如图6所示,⽬标在于帮助模型在提到特定物体的时候参考(Refer)到对应的视觉信息,类似Fast-RCNN中ROI特征的计算⽅法,只考虑包括对应物体的patch特征并展开为⼀维序列,相⽐于裁剪和编码对应的区域⼦图,RefBind⽆需额外的计算,并且保留了图⽚的语境信息。


模型训练阶段


VolCano模型训练分为三个阶段:
1. 对⻬阶段:使⽤LLaVA-pretrain数据集,仅训练MLP层;
2. 多模态交错序列预训练阶段:混合使⽤多模态⽂档(MMC4)、grounded图⽂对(GRIT)和⾼质量的图⽂对(ALLaVA),帮助模型学习多模态交错序列中的交互关系;
3. 指令微调阶段:混合使⽤LLaVA-Instruct,VoCoT-Instruct和referring expression数据,训练模型遵循指令并以VoCoT形式推理。



03

实验部分

实验设定

  • 训练⽅⾯,VolCano的训练采⽤AdamW优化器,bfloat16精度,峰值学习率为1e-5,使⽤8个NVIDIA A100 GPU,每个阶段的训练时间分别为12⼩时、48⼩时和30⼩时。输⼊图像分辨率为336*336。

  • 评测⽅⾯,作者考虑了综合的VQA数据集(GQA,SEED,MMBench)以及明确需要多步推理的任务:空间推理(Embspatial,VSR),复合型任务(VStar,CLEVR,Winoground)。进⼀步为了检测VoCoT是否能减少幻觉,作者在POPE和AMBER上评估了VolCano的幻觉问题。

  • Baseline 考虑了单图输⼊的模型和多图增强分辨率输⼊的模型。并且加⼊了VolCano-SE作为严格对照组:使⽤相同的设定和数据(去除VoCoT部分),并且只进⾏单步推理。


主实验


1. 对⽐单图输⼊的模型,VolCano明显优势,尤其是在复杂任务上;并且引⼊VoCoT以后显著减少了幻觉的产⽣。
2. 多图输⼊的模型主要在General VQA和Vstar(因为Vstar也可以看作是⾼分辨率相关的任务)上有提升;但是在空间感知和复杂推理任务上,Volcano-7b 有接近以及超过的表现(⽐如CLEVR,EmbSpatial)。
3. 和GPT-4V相⽐,在空间推理,CLEVR,Vstar上 Volcano 的表现甚⾄能优于GPT-4V。


补充实验

VoCoT形式的作⽤


进⼀步,作者⽐较了VoCoT中对于不同物体表示形式的效果,从Table 3可以看出:
1. 直接要求多模态⼤模型进⾏zero-shot CoT表现不好,存在明显幻觉,说明了构建VoCoT训练数据的必要性;
2. 仅⽂本的CoT也存在幻觉问题,只在空间推理任务上表现还不错(因为每类物体只会存在⼀个,不需要很强的grounding能⼒);
3. 引⼊坐标后有效的减少了幻觉,并且提⾼了各任务的性能;

4. RefBind得到的视觉特征能够帮助多个任务,⽽基于⼦图(Sub-Img CoT)的⽅法如之前2.2.2节提到的,会引⼊冗余信息,反⽽降低性能。


VoCoT数据的作⽤


作者还探究了VoCoT的不同部分的数据的作⽤,从表4可以看出:

1. 第⼆阶段使⽤的多模态交错数据很重要;

2. Type 1 GQA数据最为准确,模型幻觉最少,但是其形式有限,不能很好地泛化到不同任务上;

3. Type 2和Type 3的数据都在Type 1的基础上提⾼了模型对于不同形式问题的泛化性,但如果完全不使⽤Type 1的数据,则会有明显的幻觉的⻛险。


推理难度的影响


图7:不同推理难度下的模型表现

作者在CLEVR⾥探究了推理难度(所需的推理步骤)和模型表现的关系,如图5所示:随着难度增强,VolCano相⽐于VolCano-SE的优势逐渐变得明显,说明了多步推理在困难问题⾥的重要性。


VolCano的grounding能⼒


Table 5直接测试了VolCano完成grounding任务的能⼒,可以看出Volcano 在RefCOCOg(in-domain)上的拟合能⼒没有Qwen-VL强,这主要是因为前者分辨率更⼩,训练数据更少,⽽在CLEVR-ref这样zero-shot并且更加复杂的场景下,Volcano 则明显的有优势,说明VolCano有更具有泛化能⼒的grounding能⼒。


VolCano的推理能⼒拆解 


作者进⼀步将推理分为了分析和决定两个部分,前者提供相关信息,后者判断答案。并且作者考虑了不同模型作为分析者和判断者的效果,其中VolCano_V代表Vicuna基座的模型,⽤来研究基座的影响。实验在VSR上展开,使得⽂本模型也可以作为判断者。从Table 6可以看出:
1. VolCano的分析能⼒很强,在VolCano分析的基础上,GPT-4的判断准确率可以⽐GPT-4V本身还强;
2. VolCano的判断能⼒(以及总的能⼒)会受到基座模型的限制;

3. 强⼤的语⾔基座对VoCoT影响很⼤,也体现了VoCoT在更强基座上应⽤的潜⼒。



04

结语

本⽂⾥作者提出了VoCoT来帮助在多模态语境下进⾏有效可靠的多步推理,基于VoCoT的设定,作者构建了VoCoT-Instruct数据集来⽀持训练模型习得VoCoT推理的能⼒,并且得到的VolCano模型在多个任务上展现了相⽐于单步推理的优势。


END

复旦大学数据智能与社会计算实验室


Fudan DISC


联系方式:disclab@fudan.edu.cn

地址:复旦大学邯郸校区计算中心

点击“阅读原文”跳转至论文地址

内容中包含的图片若涉及版权问题,请及时与我们联系删除