POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models

2024年06月06日
  • 简介
    大型语言模型(LLMs)在零或少量样本的情况下,通过适当的提示展现了对多模态内容理解和推理的惊人能力。尽管已经开发了许多交互式系统来支持LLMs的提示工程,但大多数系统主要关注文本或视觉输入,因此忽略了多模态输入中不同模态之间的复杂相互作用。这种疏忽阻碍了有效提示的开发,无法充分利用多种模态提供的丰富上下文来引导模型的多模态推理过程。本文提出了POEM,一个视觉分析系统,以促进有效的提示工程,提高LLMs的多模态推理性能。该系统使用户能够在不同细节级别上探索模态之间的交互模式,全面了解各种提示所引发的多模态知识。通过各种演示示例和教学原则的建议,POEM支持用户迭代地制定和改进提示,以更好地对齐和增强模型知识与人类见解。通过两个案例研究和专家访谈,验证了我们系统的有效性和效率。
  • 图表
  • 解决问题
    本文旨在解决多模态输入下,大型语言模型中的prompt工程问题,即如何更好地指导模型进行多模态推理。该问题不是新问题,但目前大部分交互式系统都只关注了文本或视觉输入,忽略了多模态输入中各模态之间的复杂相互作用。
  • 关键思路
    本文提出了一种名为POEM的视觉分析系统,通过多样化的演示示例和指导原则,帮助用户迭代地制定和改进prompt,以更好地将模型知识与人类洞察力相结合,从而提高模型的多模态推理性能。
  • 其它亮点
    本文的亮点在于提出了一种全新的多模态prompt工程方法,并设计了一个名为POEM的视觉分析系统来辅助prompt工程。实验结果表明,该系统能够有效提高大型语言模型的多模态推理性能。此外,本文还提供了多个数据集和开源代码,为后续研究提供了便利。
  • 相关研究
    近年来,多模态输入下的大型语言模型的研究备受关注。相关研究包括:1. VilBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks;2. LXMERT: Learning Cross-Modality Encoder Representations from Transformers;3. UNITER: Learning Universal Image-Text Representations。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论