DocReLM: Mastering Document Retrieval with Language Model

2024年05月19日
  • 简介
    本文介绍了学术研究人员在搜索海量学术文献时面临的挑战,即现有的检索系统难以理解学术论文中存在的语义和领域知识。作者提出了一种利用大型语言模型的文档检索系统,可以实现先进的语义理解能力,明显优于现有系统。该方法涉及使用大型语言模型生成的领域特定数据来训练检索器和重新排名器。此外,作者还利用大型语言模型来识别检索论文参考文献中的候选项,以进一步提高性能。作者使用由量子物理和计算机视觉领域的学术研究人员注释的测试集来评估系统的性能。结果表明,与Google Scholar的15.69%相比,DocReLM在计算机视觉领域的前10个准确性达到了44.12%,在量子物理领域的准确性提高到36.21%,而Google Scholar的准确性只有12.96%。
  • 图表
  • 解决问题
    解决问题:如何利用大语言模型提高学术文献检索系统的语义理解能力?
  • 关键思路
    关键思路:利用大语言模型生成领域特定的数据,训练检索器和重新排序器,同时利用大语言模型识别已检索论文的参考文献,从而提高检索系统的性能。
  • 其它亮点
    亮点:通过实验评估,论文提出的DocReLM系统在计算机视觉和量子物理领域的Top 10准确率分别为44.12%和36.21%,远高于Google Scholar的准确率。同时,论文提供了开源代码和使用的数据集。
  • 相关研究
    相关研究:在学术文献检索领域,最近的相关研究包括《DeepCT: Tomographic Computed Tomography via Deep Learning》、《DeepRelevance: A Depth Relevance Matching Framework for Ad-hoc Retrieval》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论