- 简介电子发现(eDiscovery)涉及根据法律生产请求从大量文档中识别相关文档。人工智能(AI)和自然语言处理(NLP)的集成已经改变了这个过程,帮助文档审查并提高效率和成本效益。虽然BM25或经过精细调整的预训练模型等传统方法在eDiscovery中很常见,但它们面临着性能、计算和可解释性方面的挑战。相比之下,基于大语言模型(LLM)的方法优先考虑可解释性,但牺牲了性能和吞吐量。本文介绍了DISCOvery Graph(DISCOG),这是一种混合方法,结合了两个领域的优势:基于异构图的准确文档相关性预测和随后的LLM驱动推理方法。图表示学习生成嵌入并预测链接,对于给定的请求对语料库进行排名,而LLMs则为文档相关性提供推理。我们的方法处理平衡和不平衡分布的数据集,在F1得分、精确度和召回率方面平均比基线高12%、3%和16%。在企业环境中,我们的方法将文档审查成本与手动流程相比降低了99.9%,与基于LLM的分类方法相比降低了95%。
- 图表
- 解决问题本论文旨在解决电子发现(eDiscovery)中文档筛选的效率和成本问题,提出了一种新的混合方法来提高文档筛选的准确性和效率。
- 关键思路该论文提出了一种新的混合方法DISCOG,将异构图方法和大型语言模型相结合,以提高文档筛选的准确性和效率。该方法通过图表示学习生成嵌入向量和预测链接,对给定请求的语料库进行排名,并使用LLM进行文档相关性推理。
- 其它亮点该方法在处理平衡和不平衡数据集时都表现出色,F1-score、精确度和召回率的平均值分别比基线提高了12%、3%和16%。在企业环境中,与手动处理相比,该方法可以将文档审查成本降低99.9%,与基于LLM的分类方法相比可以降低95%。该论文使用了大量的数据集进行实验,并且开源了代码。
- 在这个领域中,最近的相关研究包括基于BM25或预训练模型的传统方法,以及基于LLM的方法。
沙发等你来抢
去评论
评论
沙发等你来抢