Yo'LLaVA: Your Personalized Language and Vision Assistant

简介

大型多模型（LMM）在各种任务中表现出了非凡的能力（例如图像字幕，视觉问答）。尽管广泛，它们的知识仍然是通用的（例如，识别一只狗），并且无法处理个性化的主题（例如，识别用户的宠物狗）。相比之下，人类的推理通常在我们周围的特定主题的背景下进行。例如，人们可能会问：“我应该为我的狗的生日买什么？”而不是关于“为一只狗的生日买什么”的通用查询。同样，在查看朋友的图像时，兴趣在于看到他们的活动（例如，“我的朋友正在抱着一只猫”），而不仅仅是观察通用的人类动作（例如，“一个人正在抱着一只猫”）。在本文中，我们引入了个性化LMM的新任务，以便它们可以就特定主题进行对话。我们提出了Yo'LLaVA，它学习将个性化主题嵌入到一组潜在令牌中，给出了一些主题的示例图像。我们的定性和定量分析表明，与强提示基线（例如LLaVA）相比，Yo'LLaVA可以更有效地编码视觉属性，更有效地使用更少的令牌学习概念。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文的目的是将大型多模态模型（LMMs）个性化，使其能够针对特定主题进行对话。与人类推理不同，LMMs的知识仍然是通用的，无法处理个性化主题。
关键思路

该论文提出了一种名为Yo'LLaVA的方法，它可以通过少量的示例图像将个性化主题嵌入一组潜在的标记中。与其他强提示基线相比，Yo'LLaVA可以更有效地编码视觉属性。
其它亮点

该论文的实验结果表明，Yo'LLaVA可以更有效地学习概念，并使用更少的标记来完成。此外，该论文还提供了一个新的任务，即将LMMs个性化，以便它们可以就特定主题进行对话。
相关研究

最近的相关研究包括：《Learning to Learn with Feedback and Local Plasticity》、《Multimodal Generative Models for Scalable Weakly-Supervised Learning》等。

Yo'LLaVA: Your Personalized Language and Vision Assistant

提问交流

提问交流