- 简介大多数现有的多跳数据集都是抽取式答案数据集,其中问题的答案可以直接从提供的上下文中提取。这经常导致模型使用启发式或快捷方式而不是执行真正的多跳推理。在本文中,我们提出了一个新的多跳数据集MoreHopQA,它从抽取式答案转变为生成式答案。我们利用了三个现有的多跳数据集:HotpotQA、2WikiMultihopQA和MuSiQue来创建我们的数据集。我们不仅依靠事实推理,还通过添加另一层问题来增强现有的多跳问题,这些问题涉及以下三种类型的推理之一、两种或全部:常识、算术和符号。我们的数据集是通过半自动化的过程创建的,结果是一个经过人工验证的包含1,118个样本的数据集。然后,我们使用我们的数据集来评估五种不同的大型语言模型:Mistral 7B、Gemma 7B、Llama 3(8B和70B)和GPT-4。我们还设计了各种情况来分析问题回答过程中的推理步骤。我们的结果表明,模型在初始的多跳问题上表现良好,但在我们扩展的问题上遇到困难,这表明我们的数据集比以前的数据集更具挑战性。我们对问题分解的分析表明,虽然模型可以正确回答问题,但只有一部分——GPT-4的38.7%和Llama3-70B的33.4%——实现了完美的推理,即所有相应的子问题都被正确回答。评估代码和数据可在https://github.com/Alab-NII/morehopqa上获得。
- 图表
- 解决问题论文试图提出一个新的多跳问题数据集MoreHopQA,以解决现有数据集中存在的一些问题,如模型过度依赖抽取式答案、缺乏常识、算术和符号推理等问题。同时,论文还旨在评估五种不同的大型语言模型在MoreHopQA数据集上的表现。
- 关键思路论文的关键思路是通过在现有多跳数据集的基础上,增加常识、算术和符号推理等方面的问题,从而提高多跳问题的难度,促进模型进行真正的多跳推理。
- 其它亮点论文使用三个现有的多跳数据集创建了MoreHopQA数据集,并通过半自动化的方式进行了人工验证。论文使用五种不同的大型语言模型对MoreHopQA数据集进行了评估,并设计了各种情况来分析问题回答过程中的推理步骤。实验结果表明,模型在原始多跳问题上表现良好,但在扩展问题上表现不佳,说明MoreHopQA数据集比现有数据集更具挑战性。此外,论文还提出了问题分解的分析方法,发现模型虽然可以正确回答问题,但只有一部分模型能够完美地进行推理。
- 与本文相关的研究包括HotpotQA、2WikiMultihopQA和MuSiQue等现有的多跳问题数据集,以及使用大型语言模型解决自然语言处理问题的相关研究,如GPT-3和GPT-4等。
沙发等你来抢
去评论
评论
沙发等你来抢