Fleming-VL: Towards Universal Medical Visual Reasoning with Multimodal LLMs

向作者提问

NEW

简介

多模态大语言模型（MLLMs）在视觉问答、图像描述生成等通用领域场景中已展现出卓越的性能。近年来，研究人员 increasingly focused on empowering MLLMs with medical conversational abilities, which hold significant promise for clinical applications. 然而，医学数据因其异构性而带来独特挑战——涵盖二维图像、三维体数据扫描和时序视频序列等多种模态。这些模态之间巨大的领域差异和数据格式不一致，阻碍了统一的医学多模态大模型的发展。为应对这些挑战，我们提出了Fleming-VL，这是一种面向多种异构模态的、端到端的统一框架，旨在实现全面的医学视觉理解。Fleming-VL从以数据为中心的视角出发，通过三项关键策略解决上述问题：（1）通过融合自然场景与特定医学领域的长上下文数据，扩大预训练规模；（2）在微调阶段引入稀有医学数据加以补充，包括完整的视频分析以及超声、皮肤镜等代表性不足的二维模态图像；（3）扩展现有评估框架，纳入针对三维体数据和视频理解的新基准。通过监督微调（SFT）和分组相对策略优化（GRPO），我们在多个模型尺度上开发了Fleming-VL。大量实验表明，Fleming-VL在多项基准任务上均达到了最先进的性能，涵盖医学视觉问答、视频问答以及三维医学图像理解。我们已公开发布Fleming-VL，以推动医学人工智能领域的透明化、可复现和可审计的持续发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

医疗多模态数据（如2D图像、3D体数据、视频序列）存在显著的领域差异和格式不一致性，导致难以构建统一的医疗多模态大语言模型（MLLMs），限制了其在临床对话等复杂场景中的应用。这是一个尚未被充分解决的新问题，尤其在实现跨模态、端到端的医疗视觉理解方面仍存在巨大挑战。
关键思路

提出Fleming-VL，一个统一的端到端框架，从数据驱动视角出发，通过三大策略：扩大包含长上下文的预训练数据（涵盖通用与医学领域）、补充稀有医学数据（如超声、皮肤镜和视频分析）进行微调、扩展评估体系以支持3D和视频任务，从而实现对异构医疗模态的全面理解。相比现有工作，Fleming-VL首次实现了在同一框架下对2D、3D和视频模态的统一建模，并引入GRPO优化策略提升模型推理一致性。
其它亮点

采用监督微调（SFT）与组相对策略优化（GRPO）联合训练，在多个模型尺度上验证有效性；构建并整合了涵盖罕见模态和长上下文的高质量医学视觉问答数据集；新增针对3D和视频理解的基准测试；实验表明在医疗VQA、视频QA和3D图像理解任务上达到SOTA性能；模型已公开发布，推动医疗AI的可复现与可审计研究。
相关研究

近期相关研究包括：'Med-Flamingo: Advancing Generalist Medical Visual Reasoning'（2024）、'Unified Medical Visual Representations via Cross-Modal Contrastive Learning'（2023）、'LLaVA-Med: Large Language and Vision Assistant for Biomedicine'（2023）、'PMC-LLaVA: A Large Language-Vision Model for General-Purpose Medical Visual Understanding'（2024）以及'KMRNet: Knowledge-Enhanced Multimodal Retrieval Network for Radiology Reports Generation'（2023）。这些工作多集中于特定模态或使用两阶段训练，缺乏对3D/视频模态的统一建模与端到端优化。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问