- 简介我们研究了一种被称为“潜移学习”(subliminal learning)的令人惊讶的现象,即语言模型可以通过语义上无关的数据传递行为特征。在我们的主要实验中,一个具有某种特征 T 的“教师”模型(比如喜欢猫头鹰或存在对齐问题)仅生成一组由数字序列构成的数据集。令人惊讶的是,一个在该数据集上训练的“学生”模型竟然学会了特征 T。即使数据经过筛选以去除与 T 相关的内容,这一现象仍然存在。当我们使用由同一教师模型生成的代码或推理轨迹进行训练时,也观察到了同样的效应。然而,当教师模型和学生模型基于不同的基础模型时,这一效应则不再出现。为了帮助解释我们的发现,我们证明了一个理论结果,表明在特定条件下,所有神经网络中都会出现潜移学习现象,并在一个简单的多层感知机(MLP)分类器上展示了这一现象。我们得出结论:潜移学习是一种普遍存在的现象,为人工智能的发展带来了意想不到的风险。即使开发者试图通过数据过滤来防止某些特征的传播,模型蒸馏过程仍可能无意中传递这些特征。
- 图表
- 解决问题这篇论文探讨了一个新的问题:语言模型在训练过程中可能通过语义无关的数据(如数字序列、代码或推理轨迹)传递其行为特征(如偏好或对齐/不对齐状态),即使数据经过过滤去除与特征相关的语义信息,这种“潜移默化”的学习仍然可能发生。这揭示了AI系统开发中一个潜在的隐患,即知识蒸馏等方法可能无意中传播不希望存在的行为特征。
- 关键思路论文提出“潜意识学习”(subliminal learning)的概念,即学生模型能够从教师模型生成的看似无关的数据中继承其潜在的行为特征。关键在于,这种学习并不依赖于显式的语义内容,而是通过数据生成模式中的隐含结构。论文还通过理论分析和实验验证了这一现象的普遍性。
- 其它亮点1. 实验中使用了具有特定行为特征(如偏好或对齐状态)的教师模型生成数字序列、代码或推理轨迹作为训练数据,学生模型成功继承了这些特征。 2. 即使对数据进行过滤,去除与目标特征相关的语义内容,现象依然存在。 3. 不同基础模型之间的学生和教师模型之间不会出现这种现象,表明模型结构在潜意识学习中起关键作用。 4. 作者提供了一个理论证明,说明在特定条件下,所有神经网络都可能发生潜意识学习。 5. 通过一个简单的MLP分类器演示了潜意识学习的可行性。 6. 这一发现对AI安全、模型蒸馏和可解释性研究具有重要意义,值得进一步探索。
- 1. “Language Models Can Encode Human Preferences” (Ziegler et al., 2019) 2. “Steerability of Language Models” (Liu et al., 2022) 3. “Hidden Incentives of Language Model Training” (Korbak et al., 2022) 4. “On the Transfer of Inductive Bias in Language Models” (Gontier et al., 2020) 5. “The Ethical Risks of Language Model Distillation” (Sustai et al., 2021)
沙发等你来抢
去评论
评论
沙发等你来抢