emrQA-msquad: A Medical Dataset Structured with the SQuAD V2.0 Framework, Enriched with emrQA Medical Information

2024年04月18日
  • 简介
    机器阅读理解(MRC)在塑造医疗问答系统和改变获取和应用医学信息的方式方面发挥着关键作用。然而,医学领域固有的挑战,如复杂的术语和问题的歧义性,需要创新的解决方案。一个关键的解决方案涉及整合专门的医学数据集并创建专门的数据集。这种战略性的方法增强了问答系统的准确性,有助于临床决策和医学研究的进展。为了解决医学术语的复杂性,一个专门的数据集被整合,其中包括一个新颖的Span抽取数据集,该数据集源自emrQA,但重新结构化为163,695个问题和4,136个手动获取的答案,这个新数据集被称为emrQA-msquad数据集。此外,针对有歧义的问题,引入了一个专门的医学数据集用于Span抽取任务,增强了系统的鲁棒性。对于BERT、RoBERTa和Tiny RoBERTa等模型的微调,针对医学上下文的准确性显著提高,F1分数范围从10.1%到37.4%、从18.7%到44.7%和从16.0%到46.8%。最后,emrQA-msquad数据集可以在https://huggingface.co/datasets/Eladio/emrqa-msquad上公开获取。
  • 图表
  • 解决问题
    本论文旨在解决医学领域中机器阅读理解的挑战,如复杂术语和问题歧义,提出了整合专门的医学数据集和创建专门的数据集的解决方案,并提高了模型的准确性。
  • 关键思路
    该论文的关键思路是使用专门的医学数据集和创建专门的数据集来提高机器阅读理解的准确性,特别是针对医学术语和问题歧义的挑战。使用BERT、RoBERTa和Tiny RoBERTa对医学上下文进行微调,显著提高了响应准确性。
  • 其它亮点
    值得关注的亮点包括引入了一个新的专门的Span提取数据集emrQA-msquad,该数据集公开可用;提出了一个针对Span提取任务的专门的医学数据集,增强了系统的鲁棒性;使用BERT、RoBERTa和Tiny RoBERTa对医学上下文进行微调,显著提高了响应准确性。
  • 相关研究
    在最近的相关研究中,还有一些类似的工作,如《Medical Question Answering using Transformer-based Language Models》、《A Survey on Medical Question Answering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论