Foundational Challenges in Assuring Alignment and Safety of Large Language Models

Usman Anwar ,

Abulhair Saparov ,

Javier Rando ,

Daniel Paleka ,

Miles Turpin ,

Peter Hase ,

Ekdeep Singh Lubana ,

Erik Jenner ,

Stephen Casper ,

Oliver Sourbut ,

Benjamin L. Edelman ,

Zhaowei Zhang ,

Mario Günther ,

Anton Korinek ,

Jose Hernandez-Orallo ,

Lewis Hammond ,

Eric Bigelow ,

Alexander Pan ,

Lauro Langosco ,

Tomasz Korbak ,

Heidi Zhang ,

Ruiqi Zhong ,

Seán Ó hÉigeartaigh ,

Gabriel Recchia ,

Giulio Corsi ,

Alan Chan ,

Markus Anderljung ,

Lilian Edwards ,

Yoshua Bengio ,

Danqi Chen ,

Samuel Albanie ,

Tegan Maharaj ,

Jakob Foerster ,

Florian Tramer ,

He He ,

Atoosa Kasirzadeh ,

Yejin Choi ,

David Krueger

395

热度

2024年04月15日

简介

这项工作确定了保证大型语言模型（LLMs）对齐和安全的18个基本挑战。这些挑战分为三个不同的类别：LLMs的科学理解、开发和部署方法以及社会技术挑战。基于确定的挑战，我们提出了200多个具体的研究问题。
图表
解决问题

本论文旨在确定保证大型语言模型（LLMs）的对齐性和安全性的18个基础挑战，并将这些挑战组织成三个不同的类别：LLMs的科学理解、开发和部署方法以及社会技术挑战。论文提出了200多个具体的研究问题。
关键思路

本论文的关键思路是确定大型语言模型的对齐性和安全性的挑战，提出具体的研究问题，并提供解决这些问题的方案。
其它亮点

本论文提供了一个全面的框架来确定大型语言模型的对齐性和安全性的挑战，并提供了200多个具体的研究问题。此外，论文还讨论了当前方法的局限性，并提出了一些有前途的解决方案。实验数据集和代码也已经公开。
相关研究

最近在这个领域中，还有一些相关的研究，如《GPT-3：语言模型的新里程碑》、《自然语言生成的新进展》等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论