CiteME: Can Language Models Accurately Cite Scientific Claims?

2024年07月10日
  • 简介
    每个月都会有成千上万篇新的科学论文发表。这种信息过载使得研究人员难以跟上最新技术的发展,也难以验证和正确归属论点。我们提出以下研究问题:给定一段引用论文的文本摘录,一个语言模型能否作为研究助手正确识别出所引用的论文?我们通过构建一个评估语言模型在引用文献归属方面能力的基准来推动回答这个问题。我们的基准CiteME由最近的机器学习论文中的文本摘录组成,每个文本摘录引用了一篇其他论文。CiteME的使用揭示了前沿语言模型和人类表现之间存在很大差距,语言模型的准确率仅为4.2-18.5%,而人类的准确率为69.7%。我们通过引入CiteAgent来缩小这一差距,CiteAgent是一个基于GPT-40语言模型构建的自主系统,它还可以搜索和阅读论文,在CiteME上的准确率达到了35.3%。总的来说,CiteME作为一个具有挑战性的测试平台,推动研究社区朝着未来的方向发展,即任何由语言模型提出的论点都可以自动验证并在发现错误时被丢弃。
  • 作者讲解
  • 图表
  • 解决问题
    评估语言模型在引用文献归属问题上的表现,以及提出一种自动化辅助系统来解决这个问题。
  • 关键思路
    通过构建一个基准测试集CiteME,评估了当前语言模型在引用文献归属问题上的表现,发现与人类表现存在较大差距。同时,提出了一种基于GPT-40语言模型的自动化辅助系统CiteAgent,可以较好地解决这个问题。
  • 其它亮点
    论文提出了一个新的问题,即如何通过语言模型正确归属引用文献。通过构建基准测试集CiteME,评估了当前语言模型在该问题上的表现,发现存在较大差距。同时,提出了一种基于GPT-40语言模型的自动化辅助系统CiteAgent,可以较好地解决这个问题。实验使用了最新的机器学习论文,对CiteME进行了测试。论文提出的问题具有一定的实际应用价值,同时也为未来的研究提供了新的思路。
  • 相关研究
    近期的相关研究包括:1.《BERT for Coreference Resolution: Baselines and Analysis》;2.《Zero-shot Entity Linking with Dense Entity Retrieval》;3.《Improving Multi-Document Summarization via Text Classification》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问