MMedAgent: Learning to Use Medical Tools with Multi-modal Agent

简介

尽管多模态大型语言模型（MLLMs）取得了成功，但其表现受到限制，并且常常与专业模型相比不足。最近，基于LLM的代理程序已经被开发出来，通过根据用户输入选择适当的专业模型作为工具来解决这些挑战。然而，在医疗领域内这样的进展还没有得到广泛的探索。为了弥合这一差距，本文介绍了第一个专门针对医疗领域设计的代理程序，名为多模态医疗代理（MMedAgent）。我们策划了一个包含解决七个任务的六个医疗工具的指令调整数据集，使代理程序能够选择最适合给定任务的工具。全面的实验表明，与最先进的开源方法甚至闭源模型GPT-4o相比，MMedAgent在各种医疗任务中都取得了优异的性能。此外，MMedAgent在更新和集成新的医疗工具方面表现出了效率。
图表
解决问题

本论文旨在解决在医学领域中使用MLLMs存在的局限性和不足，通过开发一个基于用户输入选择适当专业模型的LLM代理来解决这些挑战。同时构建了一个包含七个任务的六个医学工具的指令调整数据集，以便代理能够选择最适合的工具来完成任务。
关键思路

本文提出了一种针对医学领域的LLM代理，通过选择最适合的专业模型来提高在医学任务中的性能。同时，通过构建指令调整数据集，使代理能够更好地选择适当的工具来完成任务。
其它亮点

本文提出的MMedAgent在医学任务中表现出比当前开源方法和GPT-4o模型更优异的性能，并且具有更新和集成新医学工具的效率。实验使用了指令调整数据集，并且开源了代码。
相关研究

最近在医学领域中，也有一些相关的研究，如《A Review of Deep Learning in Medical Image Reconstruction》和《A Deep Learning Framework for Robust and Accurate Prediction of Alzheimer’s Disease Progression》。

MMedAgent: Learning to Use Medical Tools with Multi-modal Agent

评论