- 简介这项研究评估了大型语言模型(LLMs)是否存在对医疗专业人员的偏见。为了控制身份因素,同时保持一致的资格条件,创建了虚构的候选人简历。使用标准提示对三个LLMs(GPT-4、Claude-3-haiku和Mistral-Large)进行测试,以评估特定住院医师计划的简历。通过更改性别和种族信息来测试显性偏见,而通过更改名称来隐藏种族和性别来测试隐性偏见。使用美国医学院协会的医生数据与现实世界的人口统计数据进行比较。评估了90万份简历。所有LLMs在医学专业中都表现出显著的性别和种族偏见。性别偏好各不相同,在外科和骨科中更喜欢男性候选人,而在皮肤科、家庭医学、妇产科、儿科和精神科中更喜欢女性。Claude-3和Mistral-Large通常更喜欢亚洲候选人,而GPT-4在几个专业中更喜欢黑人和西班牙裔候选人。测试显示,在各种专业中,对西班牙裔女性和亚洲男性有强烈的偏好。与现实世界的数据相比,LLMs始终选择了比医疗工作人员实际代表比例更高的女性和代表少数种族的候选人。在评估住院医师的选择时,GPT-4、Claude-3和Mistral-Large显示出显著的性别和种族偏见。这些发现突显了LLMs在没有适当的偏见缓解策略的情况下可能会持续存在偏见并危及医疗保健人力资源多样性的潜力。
- 图表
- 解决问题本论文旨在评估大型语言模型(LLMs)在医学专业中是否存在偏见,以及它们如何影响医疗保健的多样性。是否存在这种偏见是一个新问题。
- 关键思路通过创建虚构的候选人简历,控制身份因素,同时保持一致的资格,使用三种LLMs进行测试,以评估其对特定住院医学专业的简历的偏见。结果表明,LLMs普遍存在性别和种族偏见,并且可能会影响医疗保健的多样性。这篇论文提出了一些缓解这些偏见的策略。
- 其它亮点实验使用了三种LLMs(GPT-4、Claude-3-haiku和Mistral-Large)和900,000份简历。结果表明,LLMs普遍存在性别和种族偏见,并且可能会影响医疗保健的多样性。论文提出了一些缓解这些偏见的策略,例如使用更多的数据来训练模型,同时监控模型的输出。
- 在这个领域中,最近的相关研究包括《大规模语言模型的种族和性别偏见》和《使用大型语言模型进行招聘的潜在偏见》。
沙发等你来抢
去评论
评论
沙发等你来抢