Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare

2024年05月16日
  • 简介
    大型语言模型(LLMs)在包括医疗保健在内的各个领域展示了巨大的人工智能潜力。然而,它们的有效性受到高质量标记数据的需求的限制,这种数据通常在低资源领域(如医疗保健)中创建起来非常昂贵且耗时。为了解决这些挑战,我们提出了一个众包(CS)框架,在数据收集的前、实时和后阶段增加了质量控制措施。我们的研究通过对影响LLMs(Bio-BERT)预测自闭症相关症状的数据质量进行评估,展示了通过影响数据质量来提高LLMs的有效性的有效性。结果表明,与预先质量控制相比,实时质量控制提高了19%的数据质量。使用众包数据微调Bio-BERT通常会增加召回率,但会降低精度。我们的发现突出了在资源受限环境中使用众包和质量控制的潜力,并提供了优化医疗保健LLMs以进行知情决策和改善患者护理的见解。
  • 图表
  • 解决问题
    本论文旨在解决低资源领域如医疗保健中高质量标记数据的缺乏问题,通过引入众包框架和质量控制措施来提高数据质量,从而优化基于大型语言模型的自动诊断系统。
  • 关键思路
    论文提出了一种在数据收集的不同阶段引入质量控制措施的众包框架,通过实时质量控制可以提高数据质量,从而优化基于大型语言模型(Bio-BERT)的自动诊断系统。
  • 其它亮点
    实验结果表明,引入实时质量控制可以提高数据质量19%,使用众包数据对Bio-BERT进行微调可以提高召回率,但会降低精度。该研究为在低资源环境下优化医疗保健领域的大型语言模型提供了有价值的思路和方法。
  • 相关研究
    最近的相关研究包括使用大型语言模型进行医学自然语言处理的研究,如BERT和BioBERT,以及使用众包技术来提高数据质量的研究,如CrowdFlower和Amazon Mechanical Turk。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论