REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs

2024年05月03日
  • 简介
    自动引用文档或报告中句子的生成对于情报分析员、网络安全、新闻机构和教育人员至关重要。在这项研究中,我们调查了大型语言模型(LLM)是否能够基于两种形式的句子查询生成参考文献:(a)直接查询,LLM被要求提供给定研究文章的作者姓名,以及(b)间接查询,LLM被要求在给定不同文章的句子时提供所提到的文章的标题。为了展示LLM在这项任务中的位置,我们引入了一个名为REASONS的大型数据集,其中包含arXiv上最受欢迎的12个科学研究领域的摘要。从大约20K篇研究文章中,我们对公共和专有LLM做出以下推论:(a)最先进的LLM,通常称为类人GPT-4和GPT-3.5,受到高通过率(PP)的影响以最小化幻觉率(HR)。当使用Perplexity.ai(7B)进行测试时,它们出乎意料地犯了更多错误;(b)增加相关元数据降低了PP并给出了最低的HR;(c)使用Mistral的先进检索增强生成(RAG)在间接查询上展示了一致且强大的引用支持,并且在性能上与GPT-3.5和GPT-4相匹配。在所有领域和模型中,HR平均下降了41.93%,在大多数情况下,PP降至0%。在生成质量方面,平均F1得分和BLEU分别为68.09%和57.51%;(d)使用对抗样本进行测试表明,包括Advance RAG Mistral在内的LLM难以理解上下文,但在Mistral和GPT-4-Preview中这个问题的程度很小。我们的研究为自动引用生成任务的RAG的可靠性提供了有价值的见解。
  • 图表
  • 解决问题
    自动生成引用文献对于情报分析员、网络安全、新闻机构和教育人员至关重要。本研究探讨了大型语言模型 (LLMs) 是否能够根据两种形式的句子查询生成引用文献。
  • 关键思路
    本研究提出了一个名为REASONS的大型数据集,包含arXiv上12个最受欢迎的科学研究领域的摘要。通过对约20K篇研究文章的分析,发现增加相关元数据可以降低错误率和幻觉率,并且利用Advance RAG Mistral进行检索增强生成 (RAG) 可以实现一致且强大的引用支持。
  • 其它亮点
    实验结果显示,Advance RAG Mistral 在间接查询上表现出色,与GPT-3.5和GPT-4的表现相当,所有领域和模型的幻觉率平均降低了41.93%,大部分情况下,通过增加相关元数据可以将错误率降至0%。此外,本研究还测试了对抗样本,发现LLMs在理解上下文方面存在一定困难,但是在Mistral和GPT-4-Preview中,这个问题的程度很小。
  • 相关研究
    最近的相关研究包括:1.《Citation recommendation using graph neural networks》;2.《A unified model for citation recommendation and keyphrase assignment》;3.《Citation recommendation with heterogeneous bibliographic networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论