- 简介文档问答是指在给定文档(如报告、幻灯片、小册子和网站)上回答问题的任务,由于纸质和电子文档在我们的社会中非常普遍,因此这是一项真正具有挑战性的任务。这是一个相当具有挑战性的任务,因为它不仅需要文本理解,还需要理解图表,因此通常会考虑视觉问答(VQA)方法来补充文本方法。我们介绍了日文文档问答(JDocQA),这是一个大规模的基于文档的问答数据集,基本上需要同时使用视觉和文本信息来回答问题,包括5,504个PDF格式的文档和11,600个已注释的问题和答案实例。每个问答实例都包括对文档页面的引用以及答案线索的边界框。我们将多个类别的问题和文档中无法回答的问题纳入其中,以进行逼真的问答应用。我们使用基于文本的大型语言模型(LLM)和多模型模型对我们的数据集的有效性进行了实证评估。在微调中加入无法回答的问题可能有助于利用所谓的幻觉生成。
- 图表
- 解决问题本论文旨在解决文档问答(Document Question Answering)中需要同时理解文本、图表等信息的挑战性问题,并提出了一个新的数据集 JDocQA 以供研究使用。
- 关键思路论文的关键思路是提出了一个新的文档问答数据集 JDocQA,并在该数据集上评估了基于文本和多模态模型的效果,同时引入了无法回答的问题以避免模型产生幻觉。
- 其它亮点论文提出的 JDocQA 数据集包含了 5,504 个 PDF 格式的文档和 11,600 个问题-答案实例,需要同时理解文本和图像信息才能回答问题。数据集中还包括多个问题类别和无法回答的问题,实验结果表明,引入无法回答的问题可以帮助避免模型产生幻觉。论文还介绍了使用的文本大语言模型和多模态模型,并提供了代码和数据集。
- 在文档问答领域,与 JDocQA 相关的研究包括 SQuAD、TriviaQA 等数据集,以及一些基于文本和多模态的问答模型,如 BERT、ViLBERT 等。
沙发等你来抢
去评论
评论
沙发等你来抢