- 简介本文介绍了一种新的电子病历(EHR)数据库的序列文本到SQL数据集,名为EHR-SeqSQL。EHR-SeqSQL旨在解决文本到SQL解析中关键但尚未得到充分探索的方面:交互性、组合性和效率。据我们所知,EHR-SeqSQL不仅是最大的医学文本到SQL数据集基准,而且是第一个包含顺序和上下文问题的基准。我们提供了数据拆分和新的测试集,旨在评估组合泛化能力。我们的实验表明,多轮方法在学习组合性方面优于单轮方法。此外,我们的数据集将特别制作的标记集成到SQL查询中,以提高执行效率。通过EHR-SeqSQL,我们旨在弥合文本到SQL领域中实际需求和学术研究之间的差距。
- 图表
- 解决问题论文介绍了EHR-SeqSQL,一个针对电子健康记录数据库的文本到SQL的序列数据集,旨在解决交互性、组合性和效率等问题。该数据集是首个包含序列和上下文问题的医疗文本到SQL基准测试集。
- 关键思路论文提出了一种多轮方法来学习组合性,证明了其在EHR-SeqSQL数据集上的优越性,并将特殊的标记整合到SQL查询中以提高执行效率。
- 其它亮点该数据集是目前最大的医疗文本到SQL数据集,提供了新的测试集来评估组合泛化能力。实验结果表明,多轮方法比单轮方法在学习组合性方面更有效。论文还提供了数据划分和开源代码。
- 最近的相关研究包括WikiSQL、Spider等文本到SQL数据集,以及使用多轮方法的文本到文本生成模型。
沙发等你来抢
去评论
评论
沙发等你来抢