- 简介随着全球范围内大型语言模型(LLMs)的使用不断普及,对于这些模型来说,拥有足够的知识和公正的代表各种全球文化的能力至关重要。在本文中,我们通过文化条件生成,揭示了三种最先进的模型在8个与文化相关的主题上对110个国家和地区的文化认知,并从这些生成的结果中提取了LLM所关联的每种文化的符号。我们发现,文化条件生成包含了语言上的“标记”,这些标记将边缘化的文化与默认文化区分开来。我们还发现,LLMs在文化符号的多样性方面存在不平衡的程度,并且来自不同地理区域的文化在LLMs的文化无关生成中存在不同的存在程度。我们的研究结果促进了进一步研究LLMs中全球文化认知的知识和公正性。代码和数据可在以下链接中找到:https://github.com/huihanlhh/Culture-Gen/
- 图表
- 解决问题本文旨在研究大型语言模型(LLMs)对全球文化多样性的知识和公正表达的问题。通过文化条件生成,探索了三个SOTA模型在8个与文化相关的主题上对110个国家和地区的文化感知,并从这些生成中提取与每个文化相关的符号。研究发现,文化条件生成包含可区分边缘化文化与默认文化的语言“标记”。此外,LLMs在文化符号的多样性程度上存在不平衡现象,不同地理区域的文化在LLMs的文化无关生成中的存在程度也不同。
- 关键思路本文提出了通过文化条件生成探索LLMs对全球文化多样性的知识和公正表达的方法,并从生成中提取文化符号进行研究。研究发现LLMs存在文化知识和公正表达方面的不足,文化条件生成中的语言“标记”可以区分不同文化。
- 其它亮点本文的实验使用了110个国家和地区的数据集,并提出了一种新的研究方法,可以探索LLMs对全球文化多样性的知识和公正表达。此外,研究发现LLMs在文化符号的多样性程度上存在不平衡现象,不同地理区域的文化在LLMs的文化无关生成中的存在程度也不同。研究结果提醒我们需要进一步研究LLMs对全球文化多样性的知识和公正表达。代码和数据集可以在GitHub上找到。
- 在这个领域中,最近的相关研究有:1.《Towards Fairness in Visual Recognition: Effective Strategies for Bias Mitigation》;2.《Measuring and Reducing Social Biases in Multilingual Language Models》;3.《Cross-Cultural Analysis of Emotion Cause Perception using BERT》。
沙发等你来抢
去评论
评论
沙发等你来抢