论文链接:

https://arxiv.org/pdf/2201.05966.pdf

长久以来,大家的关注点都在非结构化的文本任务上,而忽略了另一类以结构化数据为输入的任务,比如Text2SQL、KBQA、Data2Text、表格问答等。UnifiedSKG这篇工作,简单来说就是把这类涉及结构化数据的任务统一用非结构化文本表示,用T5进行精调

除了带「+」号的已经用了T5的研究外,21个任务里有16个的记录都被刷新了

除了上述实验外,作者还进行对结构化数据编码的其他探索,得到了以下结论:

  1. 在顺序上,先放User input(比如query),再放context,最后放结构化数据效果好一些。作者猜想固定的位置可以让decoder的注意力更加问题
  2. 对于跨领域的表或者数据库,T5对字段的顺序没那么敏感,对于三元组则很敏感
  3. 对于WikiSQL,把数据转成自然语言可以加速收敛,对于表格的数据则没什么效果
  4. T5的生成能力很强,语法上没什么错误,主要是答案有矛盾、信息缺失