本文介绍一篇ACL2022论文DCSR,面向开放域段落检索的句子感知的对比学习,通过引入「段落内负例抽样策略」,使得同一段落内容中生成「不同的句子表征」,构建一个基于更小粒度得上下文句子表征模型,从而解决在对比学习训练过程中,将同一个段落向量与多个语义差异较大问题向量对应的冲突问题。

论文标题:

Sentence-aware Contrastive Learning for Open-Domain Passage Retrieval

论文地址:

https://aclanthology.org/2022.acl-long.76.pdf

code:

https://github.com/chengzhipanpan/DCSR

模型结构如上图所示,用两个预训练模型分别对问题query和段落内容passage进行编码,在每个段落中句子前插入一个特殊的<sent>标记。并且,「为了保留文本上下文的信息」,将段落内容作为一个整体输入到编码器中进行编码,<sent>取标记对应的向量作为句子向量。

内容中包含的图片若涉及版权问题,请及时与我们联系删除