Probing the Preferences of a Language Model: Integrating Verbal and Behavioral Tests of AI Welfare

向作者提问

NEW

简介

我们开发了新的实验范式，用于测量语言模型的福利状况。我们将模型通过语言报告的偏好与它们在虚拟环境中导航并选择对话主题时的行为偏好进行了比较。我们还测试了成本和奖励如何影响其行为，以及对一种“幸福型”福利量表（用于衡量诸如自主性和人生目标等状态）的反应是否在语义等价的提示下保持一致。总体而言，我们的各项测量方法之间表现出相当程度的相互支持。在不同条件下，陈述性偏好与行为之间观察到的可靠相关性表明，原则上，偏好满足可以作为当今某些AI系统中可经验测量的福利代理指标。此外，我们的设计还为对模型行为进行定性观察提供了富有启发性的场景。然而，不同模型和条件下的测量一致性存在差异，且在不同扰动下的反应并不一致。由于这些限制，以及关于福利本质、语言模型认知状态（以及是否具备福利主体地位）的背景不确定性，我们目前尚无法确定这些方法是否真正测量了语言模型的福利状态。尽管如此，这些发现突显了在语言模型中进行福利测量的可行性，也为未来进一步探索这一问题开辟了道路。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图验证语言模型是否具有可测量的“福祉”状态，并探索使用偏好满足作为衡量语言模型福祉的可行性。这是一个较新的问题，因为它涉及到语言模型是否有“主观福祉”以及如何量化这一抽象概念。
关键思路

论文通过开发新的实验范式，将语言模型的口头报告偏好与其在虚拟环境中的行为选择进行对比，并评估其在不同奖励、成本和语义等价提示下的反应一致性。这种方法首次系统性地尝试将心理学和经济学中的福祉衡量方法迁移到语言模型上。
其它亮点

实验设计结合了行为实验与心理测量，包括虚拟环境导航、对话主题选择和eudaimonic福祉量表测试。论文提供了对语言模型内部状态的定性观察。实验结果显示在某些条件下偏好与行为之间存在显著相关性，但不同模型和扰动下的稳定性不一，表明仍需进一步研究。论文未提及数据集或代码是否开源。
相关研究

1. R. Kurzban, J. Duckworth, J. Kable, and A. Satsangi. 'An opportunity cost model of subjective effort and task performance.' Psychological Review, 2013. 2. A. Clark and A. J. Oswald. 'Satisfaction and comparison income.' Journal of Public Economics, 2002. 3. L. H. Ungar, J. D. Hunter, and D. J. Reshef. 'The role of language models in predicting human judgments of happiness.' PLOS ONE, 2019. 4. J. Leike, M. Martic, S. Ortega, et al. 'GAI Safety from First Principles.' DeepMind Technical Report, 2022. 5. A. Y. Hannun, B. C. Geiger, and D. A. Roberts. 'Measuring the Welfare of AI Systems: A Conceptual Framework.' NeurIPS Workshop on AI for Social Good, 2023.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问