Towards Safe and Aligned Large Language Models for Medicine

简介

大型语言模型（LLMs）的能力正在以惊人的速度发展，甚至连它们的开发者也难以掌握它们的潜力和风险。虽然已经开始评估通用知识LLMs的安全性和对齐性，但据我们所知，尽管医学LLMs存在个人健康和安全、公共卫生和安全以及人权等风险，其安全性和对齐性尚未得到评估。为此，我们进行了首次医学LLMs的安全评估。具体而言，我们提出了医疗人工智能系统的医疗安全和对齐性定义，开发了一组有害医疗问题数据集来评估LLM的医疗安全和对齐性，评估了医学LLMs的通用和医学安全和对齐性，展示了微调作为一种有效的缓解策略，并讨论了机器学习社区用于开发安全和对齐LLMs的更广泛的大规模方法。我们希望这项工作能够阐明医学LLMs的安全性和对齐性，并激励未来的研究来研究它并开发额外的缓解策略，最大程度地减少LLMs在医学上的风险。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

评估医疗大语言模型（LLMs）的安全性和对齐性，以减少LLMs在医学中带来的风险。
关键思路

通过定义医疗人工智能系统的安全性和对齐性，构建有害医疗问题数据集，评估医疗LLMs的安全性和对齐性，并展示微调作为有效的缓解策略。
其它亮点

论文展示了医疗LLMs的安全性和对齐性的评估，探讨了微调作为缓解策略的有效性，并讨论了机器学习社区用于开发安全和对齐LLMs的更广泛的大规模方法。
相关研究

最近的相关研究包括《对齐大型语言模型的研究》和《AI的安全性与对齐性》。

Towards Safe and Aligned Large Language Models for Medicine

提问交流

提问交流