- 简介最近,大型视觉语言模型(LVLMs)的进展显著提高了图像理解任务的性能,例如格式化图表和富内容图像。然而,图形用户界面(GUI)由于其结构化格式和详细的文本信息而面临更大的挑战。现有的LVLMs通常过度依赖内部知识,忽略图像内容,在GUI理解中导致幻觉和错误响应。为了解决这些问题,我们介绍了VGA,一种专为全面理解GUI而设计的微调模型。我们的模型旨在增强GUI视觉数据的解释能力并减少幻觉。我们首先使用我们提出的Referent方法构建了一个高质量的63.8k视觉问答(VQA)数据集,该方法确保模型的响应高度依赖于图像内的视觉内容。然后,我们设计了一个名为Foundation和Advanced Comprehension(FAC)的两阶段微调方法,以增强模型从图像内容中提取信息的能力,并与人类意图对齐。实验表明,我们的方法增强了模型从图像中提取信息的能力,并在GUI理解任务中取得了最先进的结果。我们的数据集和微调脚本将很快发布。
- 图表
- 解决问题论文旨在解决图形用户界面(GUI)理解中的困难,现有的大型视觉语言模型(LVLMs)过度依赖内部知识而忽略图像内容,导致产生幻觉和错误响应。
- 关键思路论文提出了一种名为VGA的经过微调的模型,旨在增强GUI的综合理解能力,减少幻觉。通过引入Referent方法构建一个63.8k高质量的视觉问答(VQA)数据集,设计了一个两阶段微调方法(FAC)来增强模型从图像内容中提取信息的能力和与人类意图的对齐。
- 其它亮点论文的亮点包括:(1)引入了Referent方法构建高质量的VQA数据集;(2)设计了FAC两阶段微调方法,提高了模型从图像内容中提取信息的能力和与人类意图的对齐;(3)实验结果表明,该方法在GUI理解任务中取得了最先进的结果。研究人员将发布数据集和微调脚本。
- 最近的相关研究包括:(1)VisualBERT:一种大规模视觉语言嵌入式模型;(2)LayoutLM:一种多模态预训练模型,用于图像文本布局分析;(3)DocVQA:一种用于文档视觉问答的数据集和评估基准。
沙发等你来抢
去评论
评论
沙发等你来抢