NeurIPS 2020 | 通过文本压缩，让BERT支持长文本

论文题目：CogLTX: Applying BERT to Long Texts
论文链接： http://keg.cs.tsinghua.edu.cn/jietang/publications/NIPS20-Ding-et-al-CogLTX.pdf
Github链接：https://github.com/toizzy/tilt-transfer

这是今年清华大学及阿里巴巴发表在NIPS 2020上的一篇论文《CogLTX: Applying BERT to Long Texts》，介绍了如何优雅地使用bert处理长文本。作者同时开源了不同NLP任务下使用COGLTX的代码。

bert在长文本处理一般分为三种方法：截断法、Pooling法、压缩法。该论文就是压缩法的一种，是三种方法中最好的。我们在科研和工作中都会遇到该问题，例如最近的一个文本分类比赛：面向数据安全治理的数据内容智能发现与分级分类竞赛 - DataFountain。其文本数据长度就都在3000左右，无法将其完整输入bert，使用COGLTX就可以很好地处理该问题。

本文接下来会展开讨论该篇论文的具体方法，感兴趣的可以继续戳链接。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

NeurIPS 2020 | 通过文本压缩，让BERT支持长文本

评论