NLI4CT: Multi-Evidence Natural Language Inference for Clinical Trial Reports

解决问题:本篇论文旨在解决如何从大量的临床试验报告中提取出对于个性化医学发展至关重要的信息,以支持临床决策。该问题是一个新问题,因为现有的自然语言推理模型无法很好地处理生物医学语料库,并且之前发布的数据集无法完全捕捉临床试验报告的推理复杂性。

关键思路:本文提出了一种新的资源,以推进在临床试验报告上进行自然语言推理的研究。该资源包括两个主要任务:确定自然语言陈述和CTR之间的推理关系,并检索支持事实以证明预测的关系。作者提供了NLI4CT,这是一个包含2400个语句和CTR的语料库,为这些任务进行了注释。在这个语料库上的基线实验揭示了现有NLI模型的局限性,6个最先进的NLI模型的最高F1分数为0.627。相比当前领域的研究状况,本文的思路在于提供了一个新的任务,涵盖了对整个CTR的解释。

其他亮点:本文的亮点在于提供了一个新的资源,以推进在临床试验报告上进行自然语言推理的研究。作者提供了一个包含2400个语句和CTR的语料库,并进行了注释。此外,作者还公开了基线实验的代码和竞赛排行榜。本文的工作值得进一步深入研究。

关于作者:本文的主要作者是Maël Jullien、Marco Valentino、Hannah Frost、Paul O'Regan、Donal Landers和André Freitas。他们来自爱尔兰都柏林大学、波尔多大学和曼彻斯特大学。他们之前的代表作包括:Maël Jullien在2019年发表的关于数据挖掘和自然语言处理的论文《Mining Scientific Papers: NLP-enhanced Bibliometrics for Information Retrieval》。

相关研究:近期其他相关的研究包括:1.《A Machine Learning Approach for Clinical Trial Eligibility Criteria Representation and Multi-criteria Matchmaking》(作者:Najmeh Mousavi et al.,机构:伊朗阿扎德大学);2.《Clinical Trial Eligibility Criteria Representation and Multi-criteria Matchmaking using Semantic Web Technologies》(作者:Najmeh Mousavi et al.,机构:伊朗阿扎德大学);3.《A Knowledge-Based Approach to Clinical Trial Eligibility Criteria Representation and Multi-Criteria Decision Making for Patient Recruitment》(作者:Najmeh Mousavi et al.,机构:伊朗阿扎德大学)。

论文摘要:本文介绍了一种解决如何解释和检索医学证据以支持临床决策的方法。多年来积累的临床试验报告(CTR)包含了个性化医学发展所必需的信息。然而,手动检查400,000多个CTR以找到实验治疗的最佳证据在实践中是不可行的。自然语言推理(NLI)提供了一个潜在的解决方案,允许对文本蕴含进行可扩展的计算。然而,现有的NLI模型在生物医学语料库上表现不佳,先前发布的数据集未能捕捉CTR推理的全部复杂性。本文提出了一种新的资源,以推进关于CTR推理的NLI研究。该资源包括两个主要任务。首先,确定自然语言陈述和CTR之间的推理关系。其次,检索支持事实以证明预测的关系。我们提供了NLI4CT,一个包含2400个语句和CTR注释的语料库,用于这些任务。该语料库的基线暴露了现有NLI模型的局限性,6个最先进的NLI模型的最大F1得分为0.627。据我们所知,我们是第一个设计涵盖整个CTR解释的任务。为了鼓励进一步研究这个具有挑战性的数据集,我们提供了语料库、竞赛排行榜、网站和代码以复制基线实验,网址为:https://github.com/ai-systems/nli4ct。

内容中包含的图片若涉及版权问题,请及时与我们联系删除