Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding

简介

视觉语言模型（VLM）可以通过分析医学图像并进行自然语言交互，协助临床医生进行诊断和治疗任务。然而，VLM经常表现出“幻觉”行为，生成的文本输出没有基于上下文的多模态信息。这一挑战在医疗领域尤为突出，因为我们不仅需要VLM在单个交互中的输出准确，还需要在整个多轮对话中与临床推理和诊断路径保持一致。为此，我们提出了一种新的对齐算法，使用临床推理的符号表示来将VLM与医学知识相联系。利用这些表示，我们可以（i）生成规模化的GPT-4引导的视觉指导调整数据，模拟临床医生-VLM的对话，展示临床推理的演示，（ii）创建自动奖励函数，评估在临床医生-VLM交互过程中VLM生成的临床有效性。我们的算法消除了在训练数据生成或奖励模型构建中人工参与的需要，与标准的强化学习和人类反馈（RLHF）相比，降低了成本。我们将我们的对齐算法应用于开发Dr-LLaVA，这是一个用于分析骨髓病理切片的对话式VLM，展示了在多轮医学对话中的强大表现。
图表
解决问题

本文尝试解决视觉语言模型在医学领域中存在的“幻觉”问题，即生成的文本输出不与多模态信息相符合。同时，还需要在多轮对话中保持一致性。
关键思路

本文提出了一种新的对齐算法，使用符号化的临床推理来将VLM与医学知识联系起来。该算法可以自动生成训练数据和奖励函数，从而减少了与人类反馈相关的成本。
其它亮点

本文提出的算法可以自动生成训练数据和奖励函数，减少了与人类反馈相关的成本。文章设计了一个名为Dr-LLaVA的对话式VLM，用于分析骨髓病理学切片，表现出了在多轮医学对话中的强大性能。
相关研究

在医学领域中，还有一些相关的研究，如使用深度学习技术进行医学图像分析和诊断，或者使用自然语言处理技术进行医学文本的理解和生成。

Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding

评论