Enhancing Biomedical Knowledge Retrieval-Augmented Generation with Self-Rewarding Tree Search and Proximal Policy Optimization

向作者提问

NEW

简介

大型语言模型（LLMs）在检索增强生成（RAG）的推动下，在生物医学领域展现出巨大的潜力。然而，现有的检索增强方法在处理多样化的查询和文档方面面临挑战，特别是对于医学知识查询，导致性能不佳。为了解决这些限制，我们提出了一种新的基于自我奖励树搜索（SeRTS）的插件式LLM检索方法，该方法基于蒙特卡罗树搜索（MCTS）和自我奖励范例。通过将LLMs的推理能力与树搜索的有效性相结合，SeRTS提高了检索高质量和信息丰富结果的零-shot性能。我们进一步通过使用SeRTS收集的轨迹作为反馈，使用近端策略优化（PPO）目标微调LLMs来增强检索性能。使用BioASQ-QA数据集进行的控制实验，使用GPT-3.5-Turbo和LLama2-7b，证明了我们的方法显著提高了BM25检索器的性能，并在效率和可扩展性方面超越了自我反思的强基线。此外，SeRTS为PPO训练生成了更高质量的反馈，优于自我反思。我们提出的方法有效地使LLMs适应文档检索任务，增强了它们在医学知识查询背景下检索高度相关文档的能力。本研究在利用LLMs进行准确和全面的生物医学问答方面迈出了重要一步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决现有检索增强生成方法在处理多样化的医学知识查询和文档时的挑战，提出了一种基于自我奖励树搜索（SeRTS）的新型检索方法，结合了LLMs的推理能力和树搜索的有效性。
关键思路

SeRTS使用蒙特卡洛树搜索和自我奖励范式，将LLMs与树搜索相结合，提高了RAG检索高质量和信息丰富性的零-shot性能，并通过使用SeRTS收集的轨迹作为反馈来使用Proximal Policy Optimization（PPO）目标微调LLMs以进一步提高检索性能。
其它亮点

本文提出了一种新的检索方法SeRTS，通过实验验证SeRTS在BioASQ-QA数据集上的性能显著优于BM25检索器和自我反思强基线，并且SeRTS生成的反馈比自我反思更高质量。本文为利用LLMs进行准确和全面的生物医学问答迈出了重要一步。
相关研究

与本文相关的研究包括利用LLMs进行文本生成和检索的先前工作，以及使用树搜索来解决其他领域的问题的研究。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问