RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models

向作者提问

NEW

简介

最近出现的医学大型视觉语言模型（Med-LVLMs）提高了医学诊断的准确性。然而，当前的Med-LVLMs经常遇到事实问题，往往生成与已知医学事实不符的响应。利用外部知识的检索增强生成（RAG）可以提高这些模型的事实准确性，但会引入两个主要挑战。首先，有限的检索上下文可能无法涵盖所有必要的信息，而过多的检索可能会引入不相关和不准确的参考，干扰模型的生成。其次，在模型最初回答正确的情况下，应用RAG可能导致过度依赖检索上下文，导致错误答案。为了解决这些问题，我们提出了RULE，它由两个组成部分组成。首先，我们引入了一种经过验证的有效策略，通过校准选择检索上下文的数量来控制事实风险。其次，基于过度依赖检索上下文导致错误的样本，我们策划了一个偏好数据集来微调模型，平衡其对内在知识和检索上下文的依赖关系以进行生成。我们在三个医学VQA数据集上展示了RULE的有效性，实现了平均20.8％的事实准确性改进。我们在https://github.com/richard-peng-xia/RULE上公开发布了我们的基准和代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决当前Med-LVLMs存在的事实问题，提出了Retrieval-Augmented Generation (RAG)方法，但是RAG方法会带来两个挑战，即检索到的上下文可能不足以涵盖所有必要信息，或者过多的检索会引入不相关和不准确的参考信息，干扰模型的生成；此外，对于一些本来回答正确的情况，RAG方法会导致对检索到的上下文过度依赖，从而产生错误的答案。论文旨在解决这些问题。
关键思路

论文提出了RULE方法来解决RAG方法带来的问题。RULE由两个组件组成，第一个组件是通过校准选择检索到的上下文数量的有效策略来控制事实风险；第二个组件是基于RAG方法导致的错误样本，构建了一个偏好数据集，用于微调模型，平衡其对内在知识和检索到的上下文的依赖，从而提高模型的事实准确性。
其它亮点

论文在三个医学VQA数据集上展示了RULE方法的有效性，事实准确性平均提高了20.8%。论文公开了基准和代码，供其他研究者使用和参考。
相关研究

近期相关研究包括：1.《Improving Factual Correctness of Abstractive Summarization》；2.《Improving Language Generation with Retrieval》；3.《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问