- 简介在快速发展的人工智能领域中,确保大型语言模型(LLMs)做出安全的决策是一个重大挑战。本文介绍了Commons Simulation(GovSim)的管理,这是一个旨在研究LLMs中战略互动和合作决策的模拟平台。通过这个模拟环境,我们探讨了AI代理之间资源共享的动态,强调了道德考虑、战略规划和谈判技巧的重要性。GovSim是通用的,并支持任何基于文本的代理,包括LLMs代理。使用生成式代理框架,我们创建了一个标准代理,以便于不同LLMs的集成。我们的研究发现,在GovSim中,只有15个测试的LLMs中的两个能够实现可持续的结果,这表明模型在管理共享资源方面存在重大差距。此外,我们发现,通过取消代理之间的通信能力,它们会过度使用共享资源,凸显了沟通对合作的重要性。有趣的是,大多数LLMs缺乏制定普遍假设的能力,这突显了它们推理技能的重大弱点。我们开源了所有研究结果的完整套件,包括模拟环境、代理提示和全面的Web界面。
- 图表
- 解决问题如何确保大型语言模型(LLMs)的安全决策?
- 关键思路通过引入Governance of the Commons Simulation(GovSim)模拟平台,研究LLMs中的战略互动和合作决策,并探索资源共享的动态。GovSim支持任何基于文本的代理,包括LLMs代理。
- 其它亮点实验发现,只有两个LLMs成功实现了可持续的结果,这表明模型在管理共享资源方面存在重大差距。去除代理之间的通信能力,它们会过度使用共享资源,突出了通信对合作的重要性。大多数LLMs缺乏制定普遍假设的能力,这突显了它们推理技能的重大缺陷。论文开源了全部研究结果,包括模拟环境、代理提示和全面的Web界面。
- 最近的相关研究包括:《AI决策的道德和社会考虑》、《大规模语言模型的安全性评估》等。
沙发等你来抢
去评论
评论
沙发等你来抢