PRISM: A Design Framework for Open-Source Foundation Model Safety

简介

开源基础模型的快速发展为这一开创性技术带来了透明度和可访问性。然而，这种开放性也使得高效但不安全的模型得以开发，如WormGPT和FraudGPT等，这些模型专门设计用于促进犯罪活动。随着开放基础模型的能力不断增长，有可能超过闭源模型的能力，恶意使用者滥用模型的风险对社会构成越来越严重的威胁。本文探讨了在这些挑战面前，开源基础模型开发者应该如何处理模型安全这一关键问题。我们的分析表明，与闭源模型相比，开源基础模型公司通常提供较少限制的可接受使用政策(AUPs)，可能是由于一旦模型发布后强制执行这些政策的固有难度。为了解决这个问题，我们引入了PRISM，这是一个针对开源基础模型安全性的设计框架，强调私密、健壮、独立的安全措施，以最小的计算成本。PRISM框架提出使用独立于核心语言模型的模块化函数来独立调节提示和输出，相比当前用于价值对齐的脆弱的强化学习方法，提供了更加适应和弹性的安全性方法。通过专注于识别AUP违规行为并吸引开发者社区在安全设计决策方面建立共识，PRISM旨在创建一个更安全的开源生态系统，最大限度地发挥这些强大技术的潜力，同时将对个人和整个社会的风险降至最低。

图表

解决问题

如何解决开源基础模型在安全性方面的问题？

关键思路

提出了一种名为PRISM的设计框架，通过使用模块化函数对提示和输出进行调节，独立于核心语言模型，从而提高模型的适应性和鲁棒性。

其它亮点

PRISM框架的设计提高了开源基础模型的安全性，同时最小化了计算成本；文中还介绍了开源基础模型与封闭基础模型在可接受使用政策方面的差异；实验结果表明，PRISM框架在提高模型安全性的同时保持了高效性能。

PRISM: A Design Framework for Open-Source Foundation Model Safety

评论