- 简介在线行为研究正面临一个日益严峻的威胁:随着参与者越来越多地借助大型语言模型(LLMs)提供建议、翻译或委托任务,研究正遭遇“LLM污染”。我们识别出三种相互关联的LLM污染形式,它们从不同层面威胁着在线行为研究的有效性和完整性。 第一,“部分LLM中介”是指参与者在任务中选择性地使用LLM,例如用于翻译或措辞辅助,导致研究人员将经LLM塑造的输出误认为是纯人类的反应。第二,“完全LLM代理”是指具备代理能力的LLM在几乎没有人类监督的情况下完成整个研究任务,这在更基础的层面上动摇了以人为中心的研究前提。第三,“LLM溢出效应”指的是参与者在预期在线研究中可能存在LLM的情况下,即使实际并未使用LLM,其行为本身也发生了改变。 “部分中介”和“完全代理”构成了一个从低到高自动化程度的连续体,而“LLM溢出效应”则反映了次级反应效应。这三种形式相互作用,引发连锁性的扭曲,损害样本的真实性,引入事后难以察觉的偏差,最终削弱了在线人类认知与行为研究的知识基础。尤为关键的是,LLM污染的威胁正随着生成式人工智能技术的发展而不断演变,引发一场日益升级的方法论“军备竞赛”。 为应对这一挑战,我们提出一种多层次的应对策略,涵盖研究者实践、平台责任以及学术共同体的努力。随着问题的演进,唯有协调一致的适应性措施,才能保障研究方法的完整性,并维护在线行为研究的科学有效性。
- 图表
- 解决问题论文探讨了一个新兴且紧迫的问题:随着参与者越来越多地在线上行为研究中使用大型语言模型(LLMs)来获取建议、翻译或任务执行,研究的有效性和完整性正面临威胁。这种现象被称为“LLM污染”,它在多个层面上影响样本真实性、数据解释和研究结论的可靠性。这是一个随着生成式AI迅速发展而新出现的问题。
- 关键思路论文提出了LLM污染的三种相互作用形式:Partial LLM Mediation(部分LLM中介)、Full LLM Delegation(完全LLM委托)和LLM Spillover(LLM溢出效应),并系统地分析了它们对在线行为研究的威胁。与以往研究不同,本文首次系统性地识别并分类了LLM介入人类行为研究的机制,并提出了一个多层面的应对策略,包括研究者实践、平台责任和学术共同体的协作。
- 其它亮点1. 论文首次系统性地提出LLM污染的概念,并对其影响进行分类与分析。 2. 识别出LLM污染的三种形式:中介、委托和溢出效应,形成一个从自动化到行为反应的连续谱系。 3. 强调LLM Spillover是人类参与者对LLM存在的预期所导致的行为改变,具有二阶反应特征。 4. 提出多层级应对策略,包括研究者设计更鲁棒的实验流程、平台加强检测机制、以及社区推动标准和伦理规范。 5. 指出LLM污染问题与生成式AI的发展同步演化,形成方法论上的“军备竞赛”,需要持续适应与协作应对。
- 1. Bender et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 2. Rogers et al. (2020). Getting Closer? Measuring Changes in Researcher Behavior in Human Computation Studies. 3. Zhang et al. (2023). Detecting AI-generated Text in Crowdsourced Behavioral Experiments. 4. Shum et al. (2023). From Embodied Agents to Automated Participants: The Role of LLMs in Social Simulation. 5. Chen et al. (2024). Human-AI Collaboration in Experimental Psychology: Opportunities and Threats.
沙发等你来抢
去评论
评论
沙发等你来抢