DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment

向作者提问

NEW

简介

最近的研究表明，使用预训练语言模型进行法律案例检索是有效的。现有的大部分研究都集中在提高上下文嵌入的[CLS]标记的表示能力，并使用文本语义相似性计算相关性。然而，在法律领域，文本语义相似性并不总是意味着案例足够相关。相反，在法律案例中，相关性主要取决于影响最终判决的关键事实的相似性。如果没有适当的处理，学习表示的区分能力可能会受到限制，因为法律案例往往很长，包含许多非关键事实。为此，我们介绍了DELTA，一种专门用于法律案例检索的区分模型。基本思想是确定法律案例中的关键事实，并将[CLS]标记的上下文嵌入靠近关键事实，同时远离非关键事实，从而以无监督的方式使案例嵌入空间变得更加清晰。具体来说，本研究将词对齐机制引入了上下文掩码自编码器中。首先，我们利用浅层解码器创建信息瓶颈，以增强表示能力。其次，我们采用深层解码器实现不同结构之间的翻译，以确定关键事实以增强区分能力。在公开可用的法律基准测试中进行的全面实验表明，我们的方法在法律案例检索方面可以胜过现有的最先进方法。它为深入理解和处理法律案例文件提供了新的视角。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决在法律领域中使用预训练语言模型进行案例检索时，文本语义相似性并不总是意味着案例足够相关的问题。因此，作者提出了一种针对法律案例的判别模型，旨在通过关键事实的相似性来提高案例的判别能力。
关键思路

本文提出了DELTA模型，通过识别关键事实并将[CLS]标记的上下文化嵌入与关键事实靠近、与非关键事实远离的方式来提高案例的判别能力。具体来说，本文将单词对齐机制引入到上下文掩码自编码器中，使用浅层解码器来增强表示能力，使用深层解码器来实现不同结构之间的翻译，以识别关键事实。
其它亮点

本文在公开的法律基准测试中进行了全面的实验，结果表明DELTA模型在法律案例检索中优于现有的最先进方法。本文的亮点包括使用单词对齐机制来识别关键事实，使用浅层和深层解码器来增强表示能力和实现结构之间的翻译，以及使用公开数据集进行实验。
相关研究

近期的相关研究包括使用预训练语言模型进行法律案例检索的方法，如BERT和RoBERTa等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问