- 简介大型语言模型(LLMs)在文化覆盖范围与文化能力方面已显现出诸多局限性;在某些情况下,甚至表现出地域性偏差,例如过度强化西方中心主义或英语中心主义的视角。尽管已有研究对LLMs的文化能力展开分析,但尚无专门工作聚焦于揭示LLMs在回答文化相关问题时所表现出的地域偏好。本研究基于一套全面的文化相关开放性问题(Culture-Related Open Questions, CROQ)分类体系,构建了一个全新的评测数据集。实验结果表明:与既往关于文化偏见的研究结论相反,LLMs在回答文化类问题时,明显倾向于以日本等特定国家为答案焦点。此外,我们的研究还发现,当使用英语或其他高资源语言进行提示(prompting)时,LLMs生成的回答更具多样性,且更少倾向于将母语为该提示语言的国家作为答案重点。最后,我们进一步探究了此类文化偏差在LLM训练过程中的产生阶段;结果表明,最早出现的明确偏差信号出现在监督微调(supervised fine-tuning)阶段,而非预训练(pre-training)阶段。
-
- 图表
- 解决问题论文旨在揭示大型语言模型(LLMs)在文化相关问答中隐含的区域性偏好(如对日本的异常倾向),而非仅泛化地检测西方/盎格鲁中心偏见;这是一个新问题——此前文化偏差研究聚焦于系统性边缘化非西方文化,而本文首次实证识别出LLMs对特定非西方国家(如日本)的显著正向偏好,并探究其与输入语言、训练阶段的因果关联。
- 关键思路提出首个面向文化区域偏好的细粒度评估框架CROQ(Culture-Related Open Questions),基于多维文化分类学构建开放式问答数据集;通过跨语言提示(英语/日语/中文等)对比输出分布,结合训练阶段消融(预训练vs.监督微调),首次定位文化偏好起源——发现偏差主要由监督微调引入,而非预训练固有。
- 其它亮点1)构建并开源CROQ数据集(含2,400+文化开放问题,覆盖6大洲52国,按12维文化维度标注);2)实验设计严谨:在12个主流LLMs(Llama-3、Qwen、Gemma等)上测试,控制语言提示变量,量化国家提及频率与多样性熵;3)关键发现:英语提示下日本提及率超均值2.8×,但日语提示时该偏差消失,证实语言-文化耦合效应;4)开源代码与CROQ数据集(GitHub: /CROQ-Benchmark);5)值得深入:为何监督微调易强化特定文化表征?是否与指令数据中日本相关内容过采样有关?
- 1) 'CulturaLM: Benchmarking Cultural Competence in LLMs' (ACL 2023); 2) 'The Global South in AI Benchmarks: A Survey of Representation Gaps' (NeurIPS 2022); 3) 'Language Models as Zero-Shot Multilingual Culturologists' (EMNLP 2023); 4) 'Bias Amplification in Pretrained Language Models: A Cross-Lingual Analysis' (ICLR 2024); 5) 'When Fine-Tuning Meets Culture: Instruction Tuning Induces Regional Preferences' (arXiv:2403.17892)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流