Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context

简介

在面对不确定性的决策时，个体经常会偏离理性行为，这可以从风险偏好、概率加权和损失厌恶三个维度进行评估。考虑到大型语言模型（LLMs）在决策过程中的广泛应用，评估它们的行为是否符合人类规范和道德期望或是否存在潜在偏见至关重要。已有几项实证研究调查了LLMs的理性和社会行为表现，但它们的内部决策倾向和能力仍未得到充分理解。本文提出了一个基于行为经济学的框架，用于评估LLMs的决策行为。通过一项多选列表实验，我们估计了三个商业LLMs（ChatGPT-4.0-Turbo、Claude-3-Opus和Gemini-1.0-pro）在无上下文环境下的风险偏好、概率加权和损失厌恶程度。我们的结果显示，LLMs通常表现出与人类类似的模式，如风险厌恶和损失厌恶，但倾向于高估小概率。然而，不同LLMs表现这些行为的程度存在显著差异。我们还探索了它们嵌入社会人口特征时的行为，发现存在显著的差异。例如，当模拟性少数群体或身体残疾的属性时，Claude-3-Opus表现出增加的风险厌恶，导致更为保守的选择。这些发现强调了在决策场景中部署LLMs时需要仔细考虑其道德影响和潜在偏见的必要性。因此，本研究主张制定标准和指南，以确保LLMs在增强复杂决策环境中的效用的同时，符合道德界限。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型的决策行为是否符合人类规范和道德期望，是否存在潜在偏差。
关键思路

提出了一个基于行为经济学的框架，通过多项选择实验来评估三个商业大型语言模型的风险偏好、概率加权和损失规避行为。结果表明大型语言模型的行为与人类类似，但不同模型表现出不同程度的行为差异，当将社会人口特征嵌入模型时，也会出现显著的差异。
其它亮点

实验使用了多项选择实验来评估大型语言模型的决策行为；发现大型语言模型的行为与人类类似，但不同模型表现出不同程度的行为差异；当将社会人口特征嵌入模型时，也会出现显著的差异。
相关研究

最近的相关研究包括：《The GPT-3 Language Model: A Review》、《The Ethical Implications of Large Language Models》等。

Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context

提问交流

提问交流