Yo'LLaVA: Your Personalized Language and Vision Assistant

2024年06月13日
  • 简介
    大型多模型(LMM)在各种任务中表现出了非凡的能力(例如图像字幕,视觉问答)。尽管广泛,它们的知识仍然是通用的(例如,识别一只狗),并且无法处理个性化的主题(例如,识别用户的宠物狗)。相比之下,人类的推理通常在我们周围的特定主题的背景下进行。例如,人们可能会问:“我应该为我的狗的生日买什么?”而不是关于“为一只狗的生日买什么”的通用查询。同样,在查看朋友的图像时,兴趣在于看到他们的活动(例如,“我的朋友正在抱着一只猫”),而不仅仅是观察通用的人类动作(例如,“一个人正在抱着一只猫”)。在本文中,我们引入了个性化LMM的新任务,以便它们可以就特定主题进行对话。我们提出了Yo'LLaVA,它学习将个性化主题嵌入到一组潜在令牌中,给出了一些主题的示例图像。我们的定性和定量分析表明,与强提示基线(例如LLaVA)相比,Yo'LLaVA可以更有效地编码视觉属性,更有效地使用更少的令牌学习概念。
  • 作者讲解
  • 图表
  • 解决问题
    本论文的目的是将大型多模态模型(LMMs)个性化,使其能够针对特定主题进行对话。与人类推理不同,LMMs的知识仍然是通用的,无法处理个性化主题。
  • 关键思路
    该论文提出了一种名为Yo'LLaVA的方法,它可以通过少量的示例图像将个性化主题嵌入一组潜在的标记中。与其他强提示基线相比,Yo'LLaVA可以更有效地编码视觉属性。
  • 其它亮点
    该论文的实验结果表明,Yo'LLaVA可以更有效地学习概念,并使用更少的标记来完成。此外,该论文还提供了一个新的任务,即将LMMs个性化,以便它们可以就特定主题进行对话。
  • 相关研究
    最近的相关研究包括:《Learning to Learn with Feedback and Local Plasticity》、《Multimodal Generative Models for Scalable Weakly-Supervised Learning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问