Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation

2024年07月02日
  • 简介
    在医学等专业领域中推进表示学习仍然具有挑战性,因为文本和图像的专家注释稀缺。为了解决这个问题,我们提出了一个新颖的两阶段框架,旨在从自由文本放射学报告中提取高质量的事实陈述,以改善文本编码器的表示,从而提高其在各种下游任务中的性能。在第一阶段,我们提出了一个“事实提取器”,利用大型语言模型(LLMs)从精心策划的领域特定数据集中识别事实陈述。在第二阶段,我们介绍了一个基于BERT模型的“事实编码器”(CXRFE),通过设计旨在使用提取的事实数据改善其表示的目标函数进行微调。我们的框架还包括一种基于嵌入的度量标准(CXRFEScore),用于评估胸部X线文本生成系统,利用我们方法的两个阶段。广泛的评估表明,我们的事实提取器和编码器在句子排序、自然语言推理和从放射学报告中提取标签等任务中优于当前最先进的方法。此外,我们的度量证明比放射学报告生成文献中常用的现有度量更稳健和有效。本项目的代码可在\url{https://github.com/PabloMessina/CXR-Fact-Encoder}上找到。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决医学等专业领域中,由于缺少专家注释文本和图像的情况下,如何提高文本编码器的性能的问题。
  • 关键思路
    本文提出了一个新的两阶段框架,旨在从自由文本放射学报告中提取高质量的事实陈述,以改进文本编码器的表示,并因此提高其在各种下游任务中的性能。
  • 其它亮点
    本文提出的事实提取器和编码器在句子排名、自然语言推理和放射学报告的标签提取等任务上优于当前最先进的方法。此外,文中还提出了一种新的基于嵌入的度量标准(CXRFEScore),用于评估胸部X射线文本生成系统。本文的代码可在GitHub上获得。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Mortality》;2.《Extracting Structured Data from Templatic Documents》;3.《A Deep Learning Approach for Electronic Health Record-driven Phenotyping》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问