这是今年清华大学及阿里巴巴发表在NIPS 2020上的一篇论文《CogLTX: Applying BERT to Long Texts》,介绍了如何优雅地使用bert处理长文本。作者同时开源了不同NLP任务下使用COGLTX的代码。

bert在长文本处理一般分为三种方法:截断法、Pooling法、压缩法。该论文就是压缩法的一种,是三种方法中最好的。我们在科研和工作中都会遇到该问题,例如最近的一个文本分类比赛:面向数据安全治理的数据内容智能发现与分级分类 竞赛 - DataFountain。其文本数据长度就都在3000左右,无法将其完整输入bert,使用COGLTX就可以很好地处理该问题。

本文接下来会展开讨论该篇论文的具体方法,感兴趣的可以继续戳链接。

内容中包含的图片若涉及版权问题,请及时与我们联系删除