Benchmarking and Adapting On-Device Large Language Models for Clinical Decision Support

向作者提问

NEW

简介

大型语言模型（LLM）在临床决策领域已取得快速进展，然而专有系统的部署却受到隐私问题和对云基础设施依赖的制约。开源替代方案虽支持本地推理，但通常需要较大的模型规模，限制了其在资源受限的临床环境中的应用。本文针对两种可在设备端运行的大型语言模型gpt-oss-20b和gpt-oss-120b，在三项具有代表性的临床任务中进行了基准测试：一般疾病诊断、专科特异性（眼科）诊断与管理，以及人类专家评分与评估的模拟。我们将它们的表现与最先进的专有模型（GPT-5和o4-mini）及领先的开源模型（DeepSeek-R1）进行比较，并进一步通过在通用诊断数据上对gpt-oss-20b进行微调，评估设备端系统在实际应用中的适应能力。结果显示，尽管gpt-oss系列模型的规模显著更小，其在各项任务中的表现仍可媲美甚至优于DeepSeek-R1和o4-mini。此外，微调显著提升了gpt-oss-20b的诊断准确率，使其性能接近GPT-5。这些发现凸显了设备端大型语言模型在提供高准确性、强适应性且保护隐私的临床决策支持方面的潜力，为将大型语言模型更广泛地融入常规临床实践提供了切实可行的路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在临床决策中部署大型语言模型（LLMs）时面临的隐私泄露和对云基础设施依赖的问题。同时，现有开源模型往往需要大量计算资源，难以在资源受限的本地设备上运行。这虽然是一个已有关注的问题，但如何在保持高诊断性能的同时实现小型化、本地化和隐私保护的平衡，仍是一个具有挑战性的研究方向。
关键思路

提出并评估两种可在设备端运行的开源大模型gpt-oss-20b和gpt-oss-120b，在多种临床任务上验证其有效性，并通过微调进一步提升小模型（gpt-oss-20b）的表现。关键创新在于展示了经过适当训练的小型开源模型可以在本地运行的情况下，达到甚至超越更大或专有云端模型（如o4-mini和接近GPT-5）的性能，从而为安全、高效、可定制的临床AI系统提供可行路径。
其它亮点

研究设计了三项代表性临床任务：通用疾病诊断、眼科专科诊疗、以及模拟人类专家评分。实验表明，gpt-oss系列模型在多项任务中表现优于DeepSeek-R1和o4-mini，且微调后的gpt-oss-20b接近GPT-5水平。值得注意的是，该工作强调了模型的本地部署能力与隐私保护优势，具备实际临床落地潜力。虽然未明确提及是否开源代码，但‘gpt-oss’命名暗示其开放性，未来值得深入探索轻量化适配、领域自适应训练及多模态医疗应用。
相关研究

1. ‘Med-PaLM: Towards Large Language Models in Clinical Medicine’ (Google Health, 2023) 2. ‘Large Language Models Encode Clinical Knowledge’ (Nature, 2023) 3. ‘Trustworthy AI in Healthcare: Challenges and Opportunities’ (NEJM AI, 2024) 4. ‘On-Device Fine-Tuning of Language Models for Personalized Medicine’ (arXiv, 2024) 5. ‘Evaluating Open-Source LLMs in Medical Question Answering’ (JAMIA, 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问