TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions

2024年03月23日
  • 简介
    最近大型语言模型(LLMs)的进展使得将自然语言问题翻译成SQL查询方面的准确性得到了显著提高。虽然在SQL生成方面取得高准确性至关重要,但我们很少了解这些文本到SQL模型在处理现实世界中遇到的各种类型问题时的可靠程度,包括无法回答的问题。为了探索这一方面,我们提出了TrustSQL,这是一个新的基准测试,旨在评估文本到SQL模型在单个数据库和跨数据库环境中的可靠性。该基准测试要求模型提供两种结果之一:1)SQL预测;或2)放弃预测,无论是在生成的SQL中存在潜在错误还是面对无法回答的问题时。为了对模型进行评估,我们探索了各种专门设计用于此任务的建模方法,包括:1)为可回答性检测、SQL生成和错误检测优化单独的模型,然后将它们集成到单个管道中;2)开发一种统一的方法,优化一个单一的模型来解决所提出的任务。使用我们的新的可靠性得分进行实验结果显示,解决这一挑战涉及许多不同的研究领域,并为模型开发开辟了新的途径。尽管如此,没有一种方法能够超越朴素基线的可靠性性能,该基线放弃回答所有问题。
  • 图表
  • 解决问题
    评估文本到SQL模型在处理多样化问题时的可靠性,包括无法回答的问题,并提供两种结果:SQL预测或放弃预测。同时探索了针对该任务的各种建模方法。
  • 关键思路
    通过优化分离的答案检测、SQL生成和错误检测模型并将其整合为单一流程,或者通过开发统一方法优化单一模型来解决该任务。实验结果表明,解决这个挑战需要涉及许多不同的研究领域,并为模型的发展开辟了新的途径。
  • 其它亮点
    论文提出了一个新的基准测试TrustSQL,用于评估文本到SQL模型在处理多样化问题时的可靠性,实验结果显示,目前还没有一种方法能够超越放弃回答所有问题的基准模型的可靠性表现。
  • 相关研究
    最近的相关研究包括SQLNet、Seq2SQL和Spider等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论