Towards Measuring the Representation of Subjective Global Opinions in Language Models

E Durmus, K Nyugen, T I. Liao, N Schiefer, A Askell, A Bakhtin...
[Anthropic]

语言模型中主观全球观点表示的评估

  • 动机:研究了大型语言模型(LLM)可能无法公平地代表全球多元化观点的问题。开发了一个量化框架来评估模型生成的回答更接近哪些人的观点。首先构建了一个数据集,GlobalOpinionQA,包含了来自不同国家的问题和答案,用于捕捉全球问题上的多元化观点。然后,定义了一个度量,量化LLM生成的调查回应与人类回应的相似性,条件是国家。
  • 方法:使用两个大型跨国调查(Pew Research Center的全球态度调查和世界价值观调查)中的2556个多项选择问题和回答,构建了GlobalOpinionQA数据集。然后,将这些调查问题提交给一个经过强化学习和宪法AI训练的大型语言模型,以便有助于、诚实和无害的对话模型。最后,计算模型回应和人类回应的相似性,其中人类回应在国家内部进行平均。
  • 优势:提出一个量化框架,可以评估大型语言模型生成的回答更接近哪些人的观点。此外,还进行了三个实验,分别是默认提示、跨国提示和语言提示,以分析模型回应与调查参与者回应的相似性。


研究了大型语言模型可能无法公平地代表全球多元化观点的问题,提出了一个量化框架和数据集,以评估模型生成的回答更接近哪些人的观点,并进行了实验验证。

https://arxiv.org/abs/2306.16388 
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除