Anthropic｜语言模型中主观全球观点表示的评估

Towards Measuring the Representation of Subjective Global Opinions in Language Models

E Durmus, K Nyugen, T I. Liao, N Schiefer, A Askell, A Bakhtin...
[Anthropic]

语言模型中主观全球观点表示的评估

动机：研究了大型语言模型(LLM)可能无法公平地代表全球多元化观点的问题。开发了一个量化框架来评估模型生成的回答更接近哪些人的观点。首先构建了一个数据集，GlobalOpinionQA，包含了来自不同国家的问题和答案，用于捕捉全球问题上的多元化观点。然后，定义了一个度量，量化LLM生成的调查回应与人类回应的相似性，条件是国家。
方法：使用两个大型跨国调查(Pew Research Center的全球态度调查和世界价值观调查)中的2556个多项选择问题和回答，构建了GlobalOpinionQA数据集。然后，将这些调查问题提交给一个经过强化学习和宪法AI训练的大型语言模型，以便有助于、诚实和无害的对话模型。最后，计算模型回应和人类回应的相似性，其中人类回应在国家内部进行平均。
优势：提出一个量化框架，可以评估大型语言模型生成的回答更接近哪些人的观点。此外，还进行了三个实验，分别是默认提示、跨国提示和语言提示，以分析模型回应与调查参与者回应的相似性。

研究了大型语言模型可能无法公平地代表全球多元化观点的问题，提出了一个量化框架和数据集，以评估模型生成的回答更接近哪些人的观点，并进行了实验验证。

内容中包含的图片若涉及版权问题，请及时与我们联系删除