Improving Retrieval in Theme-specific Applications using a Corpus Topical Taxonomy

2024年03月07日
  • 简介
    文档检索受益于大规模预训练语言模型(PLMs)的进步。然而,在特定领域或行业的主题特定应用中,它们的有效性通常受到限制,原因是独特的术语、用户查询的不完整上下文和专业化的搜索意图。为了捕捉主题特定信息并改善检索,我们提出使用语料库主题分类法,该分类法概述了语料库的潜在主题结构,同时反映了用户感兴趣的方面。我们介绍了ToTER(Topical Taxonomy Enhanced Retrieval)框架,该框架在分类法的指导下识别查询和文档的中心主题,并利用它们的主题相关性来补充缺失的上下文。作为一种即插即用的框架,ToTER可以灵活地用于增强各种基于PLM的检索器。通过对两个真实数据集的广泛定量、削减和探索性实验,我们确定了在主题特定应用中使用主题分类法进行检索的好处,并展示了ToTER的有效性。
  • 图表
  • 解决问题
    本文试图解决在特定领域应用中,大规模预训练语言模型(PLMs)的效果受限的问题,即由于专业术语、用户查询的上下文不完整和特定的搜索意图等原因,PLMs的检索效果受到限制。
  • 关键思路
    本文提出了一种基于语料库主题分类法的检索框架ToTER,该框架通过主题分类法来捕捉特定领域的信息并提高检索效果,通过指导查询和文档的中心主题来补充缺失的上下文。
  • 其它亮点
    本文通过两个真实数据集的广泛实验,证明了使用主题分类法来提高特定领域检索效果的好处,并证明了ToTER的有效性。ToTER是一个可插拔的框架,可以灵活地用于增强各种基于PLM的检索器。本文还介绍了ToTER的实现细节,并提供了开源代码。
  • 相关研究
    最近的相关研究包括使用领域特定的知识图谱来增强检索,以及使用领域特定的词汇表来扩展语言模型。其中一些研究的论文标题包括:“Domain-specific Knowledge Graph Enhanced Retrieval”和“Exploiting Domain-Specific Vocabulary to Improve Language Models for Biomedical Information Retrieval”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论