- 简介本文提出了分层文档Transformer (HDT),这是一种专为结构化分层文档定制的新型稀疏Transformer架构。这些文档在许多领域非常重要,包括科学、法律或医学。然而,大多数现有的解决方案效率低下,并未利用文档固有的结构。HDT通过引入辅助锚点标记并将注意机制重新设计成稀疏的多级层次结构来利用文档结构。这种方法促进了不同层次的标记之间的信息交换,同时保持稀疏性,从而提高了计算和内存效率,同时利用文档结构作为归纳偏差。我们通过开发一种考虑文档层次结构的新型稀疏注意力核来解决实现HDT的样本相关分层注意力模式的技术挑战。正如我们的实验所示,利用文档中存在的结构信息可以导致更快的收敛速度、更高的样本效率和更好的下游任务表现。
- 图表
- 解决问题本文旨在解决结构化分层文档的处理问题,并提出了一种新的稀疏Transformer架构,以利用文档的结构性。现有的解决方案效率低下,无法利用文档的结构。这是否是一个新问题?
- 关键思路本文提出了一种新的稀疏Transformer架构,称为Hierarchical Document Transformer (HDT),通过引入辅助锚点令注意力机制形成稀疏多级层次结构,从而利用文档的结构性。HDT的关键在于通过开发考虑文档层次结构的新型稀疏注意力核来实现其样本相关的分层注意力模式。
- 其它亮点本文的亮点在于提出了一种新的稀疏Transformer架构HDT,能够处理结构化分层文档,并利用文档的结构性。实验表明,利用文档中的结构信息可以加快收敛速度,提高样本效率,并在下游任务中获得更好的性能。本文使用了多个数据集进行实验,并开源了代码。本文的工作值得进一步深入研究。
- 在这个领域中,最近的相关研究包括:1. Hierarchical Attention Networks for Document Classification; 2. Structured Attention Networks; 3. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context。
沙发等你来抢
去评论
评论
沙发等你来抢