Benchmarking Retrieval-Augmented Large Language Models in Biomedical NLP: Application, Robustness, and Self-Awareness

2024年05月13日
  • 简介
    大型语言模型(LLM)在各种生物医学自然语言处理(NLP)任务中展示了卓越的能力,利用输入上下文中的演示来适应新任务。然而,LLM对演示的选择非常敏感。为了解决LLM固有的幻觉问题,检索增强的LLM(RAL)通过从已建立的数据库中检索相关信息提供了一种解决方案。然而,现有的研究工作缺乏对检索增强的大型语言模型对不同生物医学NLP任务的影响进行严格评估。这种缺陷使得在生物医学领域确定RAL的能力变得具有挑战性。此外,RAL的输出受到检索未标记的、反事实的或多样化的知识的影响,这些知识在生物医学领域尚未得到充分研究,但在现实世界中很常见。最后,探索自我意识能力对RAL系统也至关重要。因此,在本文中,我们系统地研究了RAL对5种不同的生物医学任务(三元组抽取、链接预测、分类、问答和自然语言推理)的影响。我们分析了RAL在四个基本能力方面的表现,包括未标记的稳健性、反事实的稳健性、多样性的稳健性和负面意识。为此,我们提出了一个评估框架,评估RAL在不同生物医学NLP任务上的表现,并基于上述基本能力建立了四个不同的测试平台。然后,我们在9个数据集上评估了3种代表性的LLM和3种不同的检索器在5个任务中的表现。
  • 解决问题
    评估检索增强的大型语言模型在生物医学自然语言处理任务中的表现和能力
  • 关键思路
    使用检索器来解决大型语言模型的幻觉问题,同时评估其在生物医学自然语言处理任务中的四种能力
  • 其它亮点
    使用了四个测试基准来评估检索增强的大型语言模型的能力,包括对未标记、反事实、多样化和负面信息的感知能力;在五个生物医学自然语言处理任务上评估了三个代表性的大型语言模型和三个不同的检索器;提出了一个评估框架来评估检索增强的大型语言模型在生物医学自然语言处理任务中的表现
  • 相关研究
    最近的相关研究包括使用检索增强的大型语言模型来解决各种自然语言处理任务,例如问答和文本分类。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论