I Could've Asked That: Reformulating Unanswerable Questions

2024年07月24日
  • 简介
    当用户查阅不熟悉的文档时,他们经常会提出无法通过文档回答的问题。虽然现有的大型语言模型(LLMs)可以识别这些无法回答的问题,但它们并不能帮助用户重新构思问题,从而降低了它们的整体效用。我们创建了CouldAsk,一个评估基准,由现有和新的面向文档的问答数据集组成,专门设计用于研究重新构思无法回答的问题。我们在CouldAsk上评估了最先进的开源和专有LLMs。结果表明,这些模型在重新构思问题方面的能力有限。具体而言,GPT-4和Llama2-7B只有26%和12%的成功问题重构率。错误分析显示,62%的失败重构来自于模型仅仅是重新措辞问题,甚至生成相同的问题。我们公开发布了基准和代码以重现实验。
  • 图表
  • 解决问题
    这篇论文试图解决如何帮助用户在阅读不熟悉的文档时,重新构思无法回答的问题的问题。
  • 关键思路
    该论文提出了CouldAsk评估基准,旨在评估现有的大型语言模型在重新构思无法回答的问题方面的能力。
  • 其它亮点
    该论文提供了一个新的数据集以及用于评估现有语言模型的基准。实验结果表明,目前的语言模型在重新构思问题方面的能力有限。作者还公开了基准和代码,以便其他研究者能够重现实验。
  • 相关研究
    最近的相关研究包括:1)OpenAI的GPT模型,2)Facebook的RoBERTa模型,3)Google的BERT模型等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论