Cartoon Hallucinations Detection: Pose-aware In Context Visual Learning

2024年03月22日
  • 简介
    大规模文本到图像(TTI)模型已成为各种生成领域中生成训练数据的常见方法。然而,视觉幻觉仍然是一个问题,尤其是在非逼真的风格,比如卡通人物中包含感知上的关键缺陷。我们提出了一种新颖的视觉幻觉检测系统,用于由TTI模型生成的卡通人物图像。我们的方法利用姿态感知的上下文视觉学习(PA-ICVL)和视觉语言模型(VLM),利用RGB图像和姿态信息。通过加入经过微调的姿态估计器的姿态指导,我们使VLM能够做出更准确的决策。实验结果表明,与仅依赖RGB图像的基线方法相比,我们的方法在识别视觉幻觉方面有显著的改进。这项研究通过减轻视觉幻觉,推进了TTI模型的发展,在非逼真领域扩展了它们的潜力。
  • 解决问题
    本论文旨在解决基于文本生成图像的模型在生成卡通角色图像时出现的视觉幻觉问题,提出了一种新的视觉幻觉检测系统。
  • 关键思路
    该论文提出了一种基于姿态感知的上下文视觉学习(PA-ICVL)和视觉语言模型(VLMs)的方法,利用RGB图像和姿态信息来检测视觉幻觉,并通过微调姿态估计器来提高VLMs的准确性。
  • 其它亮点
    本论文通过实验证明,相较于仅使用RGB图像的基线方法,该方法在卡通角色图像的视觉幻觉检测上有显著提升。该论文的方法可拓展到非真实主义领域,为大规模文本生成图像模型的发展提供新思路。
  • 相关研究
    与该论文相关的研究包括:1)基于生成对抗网络的图像生成模型;2)基于姿态估计的图像处理方法;3)基于视觉语言模型的图像生成研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论