Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

2025年10月27日
  • 简介
    语言模型(LM)在生成多样化、类人化的创造性内容方面常常表现不佳,这引发了人们对于长期接触相似输出可能导致人类思维趋于同质化的担忧。然而,目前仍缺乏可扩展的评估语言模型输出多样性的方法,尤其在诸如随机数字或姓名生成等狭窄任务之外,或在对单一模型进行重复采样之外的场景中更是如此。我们提出了Infinity-Chat,这是一个包含26,000个多样化、贴近现实、开放性用户查询的大规模数据集,这些查询允许多种合理回答,且不存在唯一正确答案。我们还首次提出了一套完整的分类体系,用于刻画面向语言模型的开放式提示的完整谱系,涵盖6个顶层类别(例如“头脑风暴与创意构思”),进一步细分为17个子类别。基于Infinity-Chat,我们开展了一项关于语言模型“模式崩溃”现象的大规模研究,揭示出在开放式生成任务中普遍存在一种显著的“人工蜂群思维”(Artificial Hivemind)效应,其特征表现为:(1)模型内部重复,即单个模型持续生成高度相似的回应;更严重的是(2)模型间同质化,即不同模型产出惊人相似的结果。Infinity-Chat还包含了31,250条人类标注数据,涵盖绝对评分和成对偏好判断,每个样本平均获得25位独立标注者的评价。这使得我们能够深入研究人类在面对开放式问题时的集体偏好以及个体差异性偏好。我们的研究发现,当模型生成的内容引发标注者之间显著不同的个性化偏好时,语言模型本身、奖励模型以及基于语言模型的评判系统对人类评分的校准程度明显下降,尽管这些生成内容的整体质量仍保持在相近水平。总体而言,Infinity-Chat首次提供了一个大规模资源,用于系统性地研究现实世界中面向语言模型的开放式查询,揭示了关键洞见,为未来应对“人工蜂群思维”所带来的长期人工智能安全风险的研究提供了重要指引。
  • 作者讲解·1
  • 图表
  • 解决问题
    语言模型(LMs)在生成多样化、类人化的创造性内容方面表现不佳,导致反复暴露于相似输出可能引发人类思维的长期同质化风险。当前缺乏可扩展的方法来评估LM输出的多样性,尤其是在开放性、真实场景的查询中,这一问题尤为突出。
  • 关键思路
    提出Infinity-Chat数据集与开放性提示的分类体系,系统研究语言模型在开放生成中的模式崩溃现象,揭示‘人工蜂群效应’(Artificial Hivemind),即模型内部重复和跨模型输出高度趋同的问题,并通过大规模人类标注分析人类偏好多样性与模型评估之间的错配。
  • 其它亮点
    构建了包含26K真实开放查询的Infinity-Chat数据集,涵盖6大类17个子类的提示分类体系;收集31,250条人类标注(每例25个独立标注),支持绝对评分与成对偏好分析;实验证明现有LMs、奖励模型和LM裁判在个体化人类偏好面前校准能力不足;首次系统揭示跨模型同质化远大于单模型重复,凸显AI安全新风险;数据集与标注已开源,为后续研究提供基准。
  • 相关研究
    1. 'On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?' (ACM FAccT 2021) 2. 'Scaling Laws for Neural Language Models' (OpenAI, 2020) 3. 'The Alignment Problem from a Deep Learning Perspective' (arXiv 2022) 4. 'Reward Modeling in Large Language Models: Limitations and Human Feedback' (NeurIPS 2023) 5. 'Measuring and Reducing Stereotyping in Language Models via Targeted Data Augmentation' (ACL 2022)
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问