Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews
解决问题:该论文试图评估使用大型语言模型(LLMs)自动生成医学系统评价文献综述的潜在用途和危害。这是一个新问题,因为LLMs的发展是相对较新的。
关键思路:论文中的解决方案关键思路是通过对16位国际系统评价专家的半结构化访谈,评估LLMs在撰写医学证据评价时的潜在用途和危害。专家认为LLMs可以作为起草或创建简明语言摘要、生成模板或建议、梳理信息、交叉检查和综合或解释文本输入的工具,但他们也指出模型输出的问题,并对自信但不准确的LLM输出可能会误导的潜在下游危害表示担忧。该论文的新意在于,它是第一篇将LLMs应用于医学系统评价文献综述的研究,同时也考虑了使用LLMs可能带来的潜在危害。
其他亮点:该论文的实验采用16位国际系统评价专家的半结构化访谈,以评估LLMs在医学证据评价中的潜在用途和危害。该论文提出了一些评估LLMs的标准,这些标准与领域专家的观点相一致。该论文没有使用特定的数据集或开源代码,但是,它提出了一个新的研究方向,即如何评估LLMs在医学领域的应用。
关于作者:论文的主要作者是Hye Sun Yun、Iain J. Marshall、Thomas Trikalinos和Byron C. Wallace。他们分别来自麻省理工学院、布朗大学、布朗大学和东北大学。Hye Sun Yun的代表作包括“Automated Medical History Taking Using a Mobile Device: A Validation Study”;Iain J. Marshall的代表作包括“Automated Identification of Miscoding Outcomes in Electronic Health Records: A Validation Study in Cardiovascular Disease”;Thomas Trikalinos的代表作包括“Decision-Analytic Modeling to Evaluate the Potential Impact of Lowering the Blood Pressure Treatment Threshold Among Adults in the United States”;Byron C. Wallace的代表作包括“Semi-Supervised Sequence Tagging with Bidirectional Language Models”。
相关研究:近期的其他相关研究包括:“A systematic review of the use of large language models for summarizing clinical and health-related texts”(作者:Yuan-Chi Chang, et al.,机构:National Taiwan University);“Towards generating review articles with recurrent neural networks”(作者:Kazuma Hashimoto, et al.,机构:Kyoto University);“The effectiveness of natural language processing for extracting information on the diagnosis, causality, prognosis and risk factors for adverse drug reactions: a systematic review”(作者:Benjamin Brown, et al.,机构:University of Manchester)。
论文摘要:本文旨在评估大型语言模型(LLM)在医学系统评价中的潜在用途和危害。医学系统评价对于指导临床决策和制定医疗政策至关重要,但是撰写这样的评价需要耗费大量时间和精力。因此,许多问题并没有高质量的证据综述,即使有,也可能已经过时。LLM现在能够生成长篇文本,因此自动生成文献综述的可能性引人入胜。然而,LLM有时会生成不准确(甚至可能误导)的文本,这可能使LLM在医疗环境中难以使用,甚至危险。大多数关于LLM的利益和风险的讨论都与具体应用无关。本研究旨在定性地描述LLM在协助撰写医学证据综述方面的潜在效用和风险。研究人员与16位国际系统评价专家进行了半结构化访谈,以生成证据综述为背景进行讨论。领域专家表示,LLM可以作为起草或创建简明语言摘要、生成模板或建议、提炼信息、交叉检查和综合或解释文本输入的工具来帮助撰写综述。但他们也指出了模型输出的问题,并对自信地组成但不准确的LLM输出可能会误导的潜在下游危害表示担忧。其他预期的潜在下游危害包括责任减轻和自动生成低质量综述的扩散。在这个定性分析的基础上,我们确定了与领域专家观点一致的生物医学LLM的严格评估标准。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢