StackOverflowVQA: Stack Overflow Visual Question Answering Dataset

简介

近年来，人们越来越多地使用人工智能来帮助解决问题，通过提出不同主题的问题。其中一个主题可以是与软件相关和编程问题有关的。在本文中，我们关注需要理解图像的问题，除了问题本身。我们介绍了StackOverflowVQA数据集，其中包括来自StackOverflow的问题，这些问题有一个或多个附带的图像。这是第一个专注于软件相关问题并包含多个人类生成的完整句子答案的VQA数据集。此外，我们提供了一个基线，使用GIT模型回答与引入的数据集中的图像相关的问题。数据集的所有版本都可以在https://huggingface.co/mirzaei2114上获得。
图表
解决问题

本论文介绍了StackOverflowVQA数据集，旨在解决软件相关问题中涉及图像理解的问题。该数据集包含来自StackOverflow的问题，其中包含一个或多个相关图片。这是第一个专注于软件相关问题且包含多个人工生成的全句答案的VQA数据集。
关键思路

本论文提出了使用GIT模型来回答StackOverflowVQA数据集中的问题。该模型结合了图像和文本信息，能够更好地理解问题并生成准确的答案。
其它亮点

本文提供了一个新的VQA数据集，专注于软件相关问题中的图像理解。此外，作者提供了一个使用GIT模型的基线结果，以回答该数据集中的问题。数据集和代码均已开源。
相关研究

最近，一些研究关注于使用VQA技术来解决软件工程问题。例如，'CodeVQA: Visual Question Answering for Code'和'CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing'等。

StackOverflowVQA: Stack Overflow Visual Question Answering Dataset

评论