- 简介随着大型语言模型(LLMs)的使用在全球范围内的普及,对于它们具备足够的知识和公正的代表多元化的全球文化至关重要。在这项工作中,我们通过文化调节生成,揭示了三个SOTA模型在8个与文化相关的主题上对110个国家和地区的文化感知,并从这些生成中提取了被LLM与每个文化相关联的符号。我们发现,文化调节生成由语言“标记”组成,这些标记将边缘化的文化与默认文化区分开来。我们还发现,LLMs在文化符号的多样性程度上存在不平衡,并且来自不同地理区域的文化在LLMs的文化不可知生成中的存在度不同。我们的发现促进了进一步研究LLMs中全球文化感知的知识和公正性。代码和数据可在以下链接找到:https://github.com/huihanlhh/Culture-Gen/。
- 解决问题本论文旨在探讨当前先进的大语言模型(LLMs)对全球文化的知识和公平表现是否足够,以及在8个与文化相关的主题上,LLMs对110个国家和地区的文化感知。
- 关键思路通过文化条件生成,提取LLMs对每个文化相关的符号,发现文化条件生成包含区分边缘文化和默认文化的语言“标记”。研究还发现LLMs在文化符号的多样性方面存在不平衡,并且来自不同地理区域的文化在LLMs的文化无关生成中存在不同的存在感。
- 其它亮点研究使用了110个国家和地区的数据,探讨LLMs对文化的知识和公平表现。通过文化条件生成,提取LLMs对每个文化相关的符号,发现文化条件生成包含区分边缘文化和默认文化的语言“标记”。研究发现LLMs在文化符号的多样性方面存在不平衡,并且来自不同地理区域的文化在LLMs的文化无关生成中存在不同的存在感。研究数据和代码已经开源。
- 在这个领域中,最近的相关研究包括:1.《如何评估大规模语言模型的公平性?》2.《全球文化多样性的语言模型》3.《文化多样性和大规模语言模型》等。
沙发等你来抢
去评论
评论
沙发等你来抢