Towards Safe and Aligned Large Language Models for Medicine

2024年03月06日
  • 简介
    大型语言模型(LLMs)的能力正在以惊人的速度发展,甚至连它们的开发者也难以掌握它们的潜力和风险。虽然已经开始评估通用知识LLMs的安全性和对齐性,但据我们所知,尽管医学LLMs存在个人健康和安全、公共卫生和安全以及人权等风险,其安全性和对齐性尚未得到评估。为此,我们进行了首次医学LLMs的安全评估。具体而言,我们提出了医疗人工智能系统的医疗安全和对齐性定义,开发了一组有害医疗问题数据集来评估LLM的医疗安全和对齐性,评估了医学LLMs的通用和医学安全和对齐性,展示了微调作为一种有效的缓解策略,并讨论了机器学习社区用于开发安全和对齐LLMs的更广泛的大规模方法。我们希望这项工作能够阐明医学LLMs的安全性和对齐性,并激励未来的研究来研究它并开发额外的缓解策略,最大程度地减少LLMs在医学上的风险。
  • 作者讲解·1
  • 图表
  • 解决问题
    评估医疗大语言模型(LLMs)的安全性和对齐性,以减少LLMs在医学中带来的风险。
  • 关键思路
    通过定义医疗人工智能系统的安全性和对齐性,构建有害医疗问题数据集,评估医疗LLMs的安全性和对齐性,并展示微调作为有效的缓解策略。
  • 其它亮点
    论文展示了医疗LLMs的安全性和对齐性的评估,探讨了微调作为缓解策略的有效性,并讨论了机器学习社区用于开发安全和对齐LLMs的更广泛的大规模方法。
  • 相关研究
    最近的相关研究包括《对齐大型语言模型的研究》和《AI的安全性与对齐性》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问