标题:TABBIE: Pretrained Representations of Tabular Data(TABBIE:表格数据的预训练表示)

机构:索尼、马萨诸塞大学阿默斯特分校、Adobe

简介:表格表示学习主题的现有工作使用了自训练语言模型(例如BERT)派生的自监督目标函数对表和关联文本进行联合建模。虽然这种联合预训练改善了涉及成对的表格和文本的任务(例如,回答有关表格的问题),但我们表明它在没有任何相关文本的情况下对表格进行操作的任务表现不佳(例如,填充丢失的单元格)。我们设计了一个简单的预训练目标(损坏单元检测),该目标专门从表格数据中学习,并在基于表的预测任务上达到了最新水平。与竞争方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格,行和列)的嵌入,并且所需的计算量也要少得多。对模型学习的单元格,列和行表示形式的定性分析表明,该模型可以理解复杂表的语义和数值趋势。

论文下载:https://arxiv.org/pdf/2105.02584v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除