Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference

IEEE Transactions on Pattern Analysis and Machine Intelligence 2024
2024年07月06日
  • 简介
    这篇摘要讲的是视觉问题生成(VQG)任务,它旨在从图像和潜在的其他信息(例如答案类型)中生成类似于人类的问题。之前的VQG工作存在两个问题:一是一个图像对应多个问题的映射问题,这导致从图像中生成引用和有意义的问题失败;二是它们无法建模图像中视觉对象之间的复杂隐含关系,也忽略了侧面信息和图像之间的潜在交互。为了解决这些限制,作者首先提出了一种新的学习范式,以具有答案感知和区域参考的方式生成视觉问题。具体而言,他们旨在通过双重提示(文本答案和视觉感兴趣区域)提出正确的视觉问题,这可以有效地缓解现有的一对多映射问题。特别地,他们开发了一种简单的方法来自学习视觉提示,而不引入任何额外的人类注释。此外,为了捕捉这些复杂的关系,他们提出了一种新的双提示引导的图形到序列学习框架,首先将它们建模为动态图形并端到端地学习隐含的拓扑结构,然后利用图形到序列模型生成具有双重提示的问题。实验结果证明了他们提出的方法的优先性。
  • 图表
  • 解决问题
    该论文旨在解决视觉问题生成中存在的一图多问问题和对图像中物体之间的复杂关系建模问题,提出了一种基于双提示的图形到序列学习框架。
  • 关键思路
    该论文的关键思路是使用双提示(文本答案和视觉兴趣区域)来生成视觉问题,通过动态图模型学习物体之间的隐式拓扑关系,并使用图形到序列模型生成问题。
  • 其它亮点
    论文使用自学习的视觉提示来生成问题,无需额外的人工注释。实验结果表明,该方法在视觉问题生成任务中具有优势。该论文提供了一个新的思路来解决视觉问题生成中的问题,并为未来的研究提供了参考。
  • 相关研究
    在此领域中,最近的相关研究包括:《Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering》、《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论