CARE-SD: Classifier-based analysis for recognizing and eliminating stigmatizing and doubt marker labels in electronic health records: model development and validation

2024年05月08日
  • 简介
    目的:利用自然语言处理技术检测和分类重症监护病房电子病历中污名化和有偏见语言的特征。材料和方法:我们首先从文献驱动的词干词列表中创建了一个词汇表和正则表达式列表,用于描述EHR中污名化患者标签、怀疑标记和引号的语言特征。该词汇表使用了Word2Vec和GPT 3.5进行扩展,并通过人工评估进行了精细调整。这些词汇表用于在去标识化的MIMIC-III数据集的1800万个句子中搜索匹配项。对于每个语言偏见特征,随机抽取1000个句子匹配项,由专家临床和公共卫生注释员进行标注,并用于监督学习分类器。结果:从扩展文献词干词列表中开发的词汇表,包含58个表达式的怀疑标记词汇表和包含127个表达式的污名化标签词汇表。怀疑标记和污名化标签的分类器表现最佳,宏F1分数分别为0.84和0.79,正面标签召回率和精度值在0.71到0.86之间,准确性与人工注释者一致(0.87)。讨论:本研究证明了监督分类器在自动识别医学文本中的污名化标签和怀疑标记方面的可行性,并在EHR环境中确定了污名化语言使用的趋势。额外的标记数据可能有助于改善较低的引号模型性能。结论:本研究开发的分类器表现出高模型性能,并可应用于识别模式并针对医疗保健系统中的污名化标签和怀疑标记进行干预。
  • 图表
  • 解决问题
    本文旨在使用自然语言处理技术,检测和分类重症监护电子健康记录(EHR)中污名化和有偏见语言的特征。具体而言,本文试图解决EHR中污名化语言和怀疑标记的问题。
  • 关键思路
    本文通过创建词汇表和正则表达式列表,并使用Word2Vec和GPT 3.5扩展词汇表,然后通过人工评估对词汇表进行了精细化处理,最终使用有监督学习分类器来搜索MIMIC-III数据集中的18百万个句子,以检测和分类污名化和有偏见语言的特征。本文的关键思路是使用有监督学习分类器来自动识别EHR中的污名化标签和怀疑标记。
  • 其它亮点
    本文使用了文献驱动的词干词汇表,扩展的词汇表,Word2Vec和GPT 3.5来创建词汇表,然后通过人工评估对词汇表进行了精细化处理。本文还使用了MIMIC-III数据集中的18百万个句子来训练有监督学习分类器,并对分类器进行了评估。本文的研究结果表明,使用有监督学习分类器可以自动识别EHR中的污名化标签和怀疑标记,并且可以应用于识别医疗系统中的污名化语言。
  • 相关研究
    最近的相关研究包括使用自然语言处理技术来识别医疗领域中的污名化语言和有偏见的语言。例如,一篇名为“使用自然语言处理技术识别医疗领域中的污名化语言”的论文。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论