BERT在文档级排序中的应用

近年来 BERT 的出现，让预训练模型在各大自然语言处理任务上实现了屠榜。但是由于 BERT 模型本身的设计，使其在处理长度大于 512 个 token 的文本时面临着一些挑战。所以直接将 BERT 应用于文档级排序（document ranking）任务存在一定的困难，具体来说主要体现在以下两个方面：

训练阶段，我们尚不清楚要向模型提供什么形式内容。关键问题是在文档级别的数据集提供了用于文档排序的相关性判断（例如 TREC 集合），即它们是整个文档的注释。显然，对“相关”的判断来自包含“相关内容”的文档，但是未知该内容如何在整个文档中分布。
推断阶段，如果文档太长而无法全部输入 BERT，我们必须决定如何预处理文档。我们可以将其分段，但是有很多设计选择：例如，使用固定宽度的跨度还是诸如句子之类的自然单位？此外，对文档中的不同片段完成推断仍然需要一些聚合分数的方法。

在本文中，我们将介绍目前研究者针对上述问题的提出的一系列解决方案。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

BERT在文档级排序中的应用

评论