Cartoon Hallucinations Detection: Pose-aware In Context Visual Learning

2024年03月22日
  • 简介
    大规模文本转图像(TTI)模型已成为各种生成领域中生成训练数据的常见方法。然而,视觉幻觉仍然是一个问题,尤其是在非逼真风格(如卡通人物)中包含感知上关键的缺陷。我们提出了一种新颖的视觉幻觉检测系统,用于由TTI模型生成的卡通人物图像。我们的方法利用了姿势感知上下文视觉学习(PA-ICVL)和视觉语言模型(VLMs),同时利用RGB图像和姿势信息。通过加入来自经过微调的姿势估计器的姿势指导,我们使VLM能够做出更准确的决策。实验结果表明,与仅依赖RGB图像的基线方法相比,我们的方法在识别视觉幻觉方面有显着的改进。这项研究通过减轻视觉幻觉,推进了TTI模型的发展,扩展了它们在非逼真领域中的潜力。
  • 作者讲解
  • 图表
  • 解决问题
    论文提出了一种解决文本到图像模型中视觉幻觉问题的方法,特别是在非照片真实主义风格(如卡通角色)中。
  • 关键思路
    论文提出了一种基于姿态感知的上下文视觉学习(PA-ICVL)的方法,利用RGB图像和姿态信息结合视觉语言模型(VLMs)来检测视觉幻觉。
  • 其它亮点
    实验结果表明,与仅依赖RGB图像的基线方法相比,该方法在识别视觉幻觉方面取得了显著的改进。该研究通过减轻视觉幻觉,推进了TTI模型在非照片真实主义领域的潜力。
  • 相关研究
    最近的相关研究包括:《Generative Adversarial Networks for Cartoon-to-Real Translation》、《CartoonGAN: Generative Adversarial Networks for Photo Cartoonization》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问