WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models

简介

多元文化人类价值观的认知对于语言模型（LMs）生成安全和个性化的回复至关重要。然而，由于计算机科学界缺乏关于多元文化价值观的大规模真实世界数据，因此对于LMs的这种认知研究不够充分。本文介绍了WorldValuesBench，这是一个全球多元化、大规模的基准数据集，用于多元文化价值预测任务，该任务要求模型根据人口统计背景对价值问题生成评分回答。我们的数据集源自一个有影响力的社会科学项目World Values Survey（WVS），该项目从全球94728名参与者那里收集了对数百个价值问题（例如社会、经济、伦理）的回答。我们从WVS的回答中构建了超过2000万个类型为“(人口统计属性，价值问题) $\rightarrow$ 回答”的例子。我们使用我们的数据集进行了案例研究，并展示了该任务对于强大的开源和闭源模型来说是具有挑战性的。在仅11.1％、25.0％、72.2％和75.0％的问题上，Alpaca-7B、Vicuna-7B-v1.5、Mixtral-8x7B-Instruct-v0.1和GPT-3.5 Turbo分别可以实现与人类标准化答案分布的Wasserstein 1距离小于0.2。WorldValuesBench为研究LMs的多元文化价值认知的限制和机会开辟了新的研究途径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决语言模型缺乏多元文化价值观意识的问题，提出了一个全球多元化的大规模基准数据集WorldValuesBench，用于多元文化价值预测任务。
关键思路

论文提出了一个基于社会科学项目World Values Survey (WVS)的数据集，构建了超过2000万个例子，用于评估模型对于不同人口属性下的价值观问题的回答预测。
其它亮点

论文通过实验表明，现有的强大的开源和闭源模型在这个任务上表现都不够理想。该数据集的构建为研究语言模型在多元文化价值意识方面的局限和机遇开辟了新的研究途径。
相关研究

与该论文相关的研究包括：1.《Language Models as Knowledge Bases?》 2.《Cross-lingual Alignment of Contextual Word Embeddings》 3.《Language Models are Few-Shot Learners》

WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models

提问交流

提问交流