Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs

向作者提问

NEW

简介

大型语言模型（LLMs）在文化覆盖范围与文化能力方面已显现出诸多局限性；在某些情况下，甚至表现出地域性偏差，例如过度强化西方中心主义或英语中心主义的视角。尽管已有研究对LLMs的文化能力展开分析，但尚无专门工作聚焦于揭示LLMs在回答文化相关问题时所表现出的地域偏好。本研究基于一套全面的文化相关开放性问题（Culture-Related Open Questions, CROQ）分类体系，构建了一个全新的评测数据集。实验结果表明：与既往关于文化偏见的研究结论相反，LLMs在回答文化类问题时，明显倾向于以日本等特定国家为答案焦点。此外，我们的研究还发现，当使用英语或其他高资源语言进行提示（prompting）时，LLMs生成的回答更具多样性，且更少倾向于将母语为该提示语言的国家作为答案重点。最后，我们进一步探究了此类文化偏差在LLM训练过程中的产生阶段；结果表明，最早出现的明确偏差信号出现在监督微调（supervised fine-tuning）阶段，而非预训练（pre-training）阶段。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在揭示大型语言模型（LLMs）在文化相关问答中隐含的区域性偏好（如对日本的异常倾向），而非仅泛化地检测西方/盎格鲁中心偏见；这是一个新问题——此前文化偏差研究聚焦于系统性边缘化非西方文化，而本文首次实证识别出LLMs对特定非西方国家（如日本）的显著正向偏好，并探究其与输入语言、训练阶段的因果关联。
关键思路

提出首个面向文化区域偏好的细粒度评估框架CROQ（Culture-Related Open Questions），基于多维文化分类学构建开放式问答数据集；通过跨语言提示（英语/日语/中文等）对比输出分布，结合训练阶段消融（预训练vs.监督微调），首次定位文化偏好起源——发现偏差主要由监督微调引入，而非预训练固有。
其它亮点

1）构建并开源CROQ数据集（含2,400+文化开放问题，覆盖6大洲52国，按12维文化维度标注）；2）实验设计严谨：在12个主流LLMs（Llama-3、Qwen、Gemma等）上测试，控制语言提示变量，量化国家提及频率与多样性熵；3）关键发现：英语提示下日本提及率超均值2.8×，但日语提示时该偏差消失，证实语言-文化耦合效应；4）开源代码与CROQ数据集（GitHub: /CROQ-Benchmark）；5）值得深入：为何监督微调易强化特定文化表征？是否与指令数据中日本相关内容过采样有关？
相关研究

1) 'CulturaLM: Benchmarking Cultural Competence in LLMs' (ACL 2023); 2) 'The Global South in AI Benchmarks: A Survey of Representation Gaps' (NeurIPS 2022); 3) 'Language Models as Zero-Shot Multilingual Culturologists' (EMNLP 2023); 4) 'Bias Amplification in Pretrained Language Models: A Cross-Lingual Analysis' (ICLR 2024); 5) 'When Fine-Tuning Meets Culture: Instruction Tuning Induces Regional Preferences' (arXiv:2403.17892)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问