HiPool: Modeling Long Documents Using Graph Neural Networks
解决问题: 这篇论文的目标是解决在自然语言处理中对于长文档的建模问题。尽管最近的预训练语言模型在许多NLP任务中取得了令人满意的表现,但它们仍受到预定义的最大长度的限制,使得它们难以扩展到更长的序列。因此,一些最近的工作利用层次结构来建模长序列。然而,大多数工作在上层层次中应用顺序模型,存在长依赖问题。因此,本文提出了一种基于图的方法来缓解这些问题。
关键思路: 本文的关键思路是通过将长文档分块,并利用图来建模句内和句间的关联,从而解决长依赖问题。作者首先将序列按照固定长度分块,以建模句子级别的信息。然后,他们利用图来建模句内和句间的关联,并提出了一种新的注意机制。本文的方法在长文档分类任务中表现出更好的性能和可扩展性,特别是对于更长的序列。
其他亮点: 本文提出了一个新的具有挑战性的长文档分类基准数据集,该数据集包括六个数据集,共计53000个样本和4034个平均标记长度。本文的模型在F1得分上超过了竞争基线2.6%,在最长序列数据集上超过了4.8%。另外,本文还提供了开源代码。
关于作者: 本文的主要作者是Irene Li、Aosong Feng、Dragomir Radev和Rex Ying。他们分别来自斯坦福大学和华盛顿大学。Irene Li之前的代表作包括“Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders”;Aosong Feng之前的代表作包括“Multi-Task Learning for Mental Health using Social Media Text”;Dragomir Radev之前的代表作包括“Probabilistic Topic Models for Text and Images”;Rex Ying之前的代表作包括“Hierarchical Graph Representation Learning with Differentiable Pooling”。
相关研究: 最近的其他相关研究包括:
- "Longformer: The Long-Document Transformer",由Iz Beltagy、Matthew E. Peters和Arman Cohan在2020年提出,来自Allen Institute for AI。
- "Hierarchical Transformers for Long Document Classification",由Yi Tay、Mostafa Dehghani、Samira Abnar、Yao Lu和Jing Jiang在2020年提出,来自Google Research、Nanyang Technological University和University of Illinois at Urbana-Champaign。
- "DocFormer: Learning to Doctored-Text Generation with GPT-2",由Zhangyin Feng、Dayiheng Liu、Duyu Tang、Nan Duan和 Xiaodong Liu在2020年提出,来自Microsoft Research Asia。
论文摘要:该论文探讨了在自然语言处理中如何对长文本进行编码的问题。尽管最近的预训练语言模型在许多NLP任务中取得了令人满意的表现,但它们仍受到预定义的最大长度的限制,使得它们难以扩展到更长的序列。因此,一些最近的工作利用层次结构来建模长序列。然而,大多数工作在上层层次中应用顺序模型,面临长依赖问题。为了解决这些问题,本文提出了一种基于图的方法。首先,我们通过固定长度来对序列进行分块,以建模句子级别的信息。然后,我们利用图来建模句内和句间的相关性,并提出了一种新的注意机制。此外,由于长文档分类(LDC)的标准基准有限,我们提出了一个新的具有挑战性的基准,总共包括六个数据集,最多有53k个样本和4034个平均标记长度。评估结果显示,我们的模型在F1得分上超过了竞争基线2.6%,在最长序列数据集上超过了4.8%。我们的方法表现出优于分层顺序模型的性能和可扩展性,特别是对于更长的序列。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢