近年来 BERT 的出现,让预训练模型在各大自然语言处理任务上实现了屠榜。但是由于 BERT 模型本身的设计,使其在处理长度大于 512 个 token 的文本时面临着一些挑战。所以直接将 BERT 应用于文档级排序(document ranking)任务存在一定的困难,具体来说主要体现在以下两个方面:
训练阶段,我们尚不清楚要向模型提供什么形式内容。关键问题是在文档级别的数据集提供了用于文档排序的相关性判断(例如 TREC 集合),即它们是整个文档的注释。显然,对“相关”的判断来自包含“相关内容”的文档,但是未知该内容如何在整个文档中分布。
推断阶段,如果文档太长而无法全部输入 BERT,我们必须决定如何预处理文档。我们可以将其分段,但是有很多设计选择:例如,使用固定宽度的跨度还是诸如句子之类的自然单位?此外,对文档中的不同片段完成推断仍然需要一些聚合分数的方法。
在本文中,我们将介绍目前研究者针对上述问题的提出的一系列解决方案。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢