Dr3: Ask Large Language Models Not to Give Off-Topic Answers in Open Domain Multi-Hop Question Answering

2024年03月19日
  • 简介
    开放领域多跳问题回答(ODMHQA)通过对来自外部知识源的检索信息进行多步推理,旨在回答复杂问题,是自然语言处理(NLP)中至关重要的一部分。最近,由于规划、推理和利用工具等能力,大型语言模型(LLMs)在解决ODMHQA方面表现出了显著的性能。然而,当尝试解决ODMHQA时,LLMs可能会生成与原始问题不相关的答案,即生成的答案与原始问题无关。这个偏离主题答案的问题占不正确答案的约三分之一,但尽管其重要性,仍未得到充分探讨。为了缓解这个问题,我们提出了“区分->重新组合->重新解决->重新分解(Dr3)”机制。具体而言,鉴别器利用LLMs的内在能力来判断生成的答案是否偏离主题。在检测到偏离主题答案的情况下,修正器沿着反向推理链(重新组合->重新解决->重新分解)逐步进行修正,直到最终答案变得相关。在HotpotQA和2WikiMultiHopQA数据集上的实验结果表明,我们的Dr3机制将ODMHQA中偏离主题答案的发生率显著降低了近13%,与没有Dr3机制的基线方法相比,精确匹配(EM)的性能提高了近3%。
  • 图表
  • 解决问题
    本论文旨在解决大语言模型在解决开放域多跳问题时生成离题答案的问题,提出了Discriminate->Re-Compose->Re-Solve->Re-Decompose (Dr3)机制,通过反向推理链的逐步修订,使得最终答案符合题意。
  • 关键思路
    Dr3机制通过判别器检测离题答案,再通过逐步修订的方式使得答案符合题意。
  • 其它亮点
    论文在HotpotQA和2WikiMultiHopQA数据集上进行了实验,证明Dr3机制能够显著减少离题答案的出现,提高精确匹配率(EM),比基线方法提高了近3%。值得关注的是,Dr3机制可以在不需要额外数据的情况下进行训练和推理,且可扩展到其他领域。
  • 相关研究
    在相关研究中,有一些研究也关注了大语言模型在解决多跳问题时生成离题答案的问题,如《Answer Verification with Extra Supervision from Wrong Answers》和《Answer Verification with Reinforced Negative Evidence》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论