- 简介多模态大语言模型(MLLMs)被广泛认为是探索人工通用智能(AGI)的关键。 MLLMs的核心在于其实现跨模态对齐的能力。为了实现这个目标,当前的MLLMs通常遵循两阶段训练范式:预训练阶段和指令微调阶段。尽管它们取得了成功,但是这些模型中对齐能力的建模存在缺陷。首先,在预训练阶段,模型通常假设所有图像-文本对都是均匀对齐的,但实际上不同图像-文本对之间的对齐程度是不一致的。其次,目前用于微调的指令包括各种任务,不同任务的指令通常需要不同水平的对齐能力,但以前的MLLMs忽略了这些不同的对齐需求。为了解决这些问题,我们提出了一种新的多模态大语言模型AlignGPT。在预训练阶段,我们不再将所有图像-文本对等同对待,而是为不同的图像-文本对分配不同水平的对齐能力。然后,在指令微调阶段,我们自适应地结合这些不同水平的对齐能力,以满足不同指令的动态对齐需求。广泛的实验结果表明,我们的模型在12个基准测试中取得了竞争性的性能。
- 图表
- 解决问题提高多模态大语言模型的交叉模态对齐能力,解决当前模型在对齐能力上存在的问题。
- 关键思路在预训练阶段,对不同的图像-文本对分配不同的对齐能力水平,以更好地反映它们之间的差异;在微调阶段,根据不同任务的对齐需求自适应组合不同水平的对齐能力。
- 其它亮点论文提出的AlignGPT模型在12个基准测试中取得了竞争性的表现。实验设计合理,使用了多个数据集,同时开源代码。
- 与当前研究方向相关的其他研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
沙发等你来抢
去评论
评论
沙发等你来抢