Beyond Accuracy: Investigating Error Types in GPT-4 Responses to USMLE Questions

2024年04月20日
  • 简介
    GPT-4在医学问答任务中表现出高准确性,准确率为86.70%,紧随其后的是Med-PaLM 2,准确率为86.50%。然而,仍有约14%的错误。此外,目前的研究仅使用GPT-4来预测正确选项,而没有提供任何解释,因此无法提供有关GPT-4或其他LLMs所使用的思维过程和推理的任何洞见。因此,我们引入了一种新的领域特定的错误分类法,该分类法是与医学生合作得出的。我们的GPT-4 USMLE Error(G4UE)数据集包括4153个GPT-4正确响应和919个错误响应,分别针对美国医学许可考试(USMLE)。这些响应相当长(平均258个单词),包含了GPT-4的详细解释,以证明所选选项的正确性。然后,我们使用Potato注释平台启动了大规模注释研究,并通过众包平台Prolific招募了44名医学专家。我们对这919个不正确的数据点中的300个数据点进行了精细级别的注释,以识别错误原因的不同类别,并创建了一个多标签跨度。在我们的注释数据集中,注释者将GPT-4的相当大一部分不正确响应归类为“GPT-4的合理响应”。这揭示了即使在受过训练的医学专业人士中,辨别可能导致错误选项的解释也是一项挑战。我们还为每个数据点提供了使用SemRep工具提取的医学概念和医学语义预测。我们相信这将有助于评估LLMs回答复杂医学问题的能力。我们在https://github.com/roysoumya/usmle-gpt4-error-taxonomy上提供了这些资源。
  • 图表
  • 解决问题
    本论文旨在解决医学问答任务中语言模型的错误分类问题,并提供错误分类的新领域特定的错误分类法。同时,论文试图提供对语言模型选择的正确答案的解释,以便更好地理解其推理过程。
  • 关键思路
    论文提出了一个新的G4UE数据集,其中包含对于USMLE问题的正确和错误答案,每个答案都有详细的解释。然后,使用该数据集进行了大规模的注释研究,以创建一个多标签分类法来确定错误的原因。此外,论文还提供了医学概念和语义预测,以帮助评估语言模型回答复杂医学问题的能力。
  • 其它亮点
    论文使用GPT-4和Med-PaLM 2模型在医学QA任务中进行了评估,并提供了高达86.7%的准确性。此外,论文提供了一个新的数据集和错误分类法,以更好地理解语言模型的错误分类问题。论文还提供了医学概念和语义预测,以帮助评估语言模型回答复杂医学问题的能力。所有资源都开源并可在github上获取。
  • 相关研究
    最近在医学问答任务中,也有一些研究使用语言模型进行评估,如BioASQ和TREC。此外,还有一些研究探讨了语言模型的错误分类问题,并提出了不同的解决方案。例如,使用对抗性训练和迁移学习来提高模型的准确性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论