- 简介虽然大型语言模型(LLMs)已经展示出优越的多任务能力,但理解这些能力背后的学习机制仍然是一个具有挑战性的问题。在本文中,我们试图从神经元的角度来理解这些机制。具体而言,我们通过在任务特定数据上进行梯度归因来检测LLMs中的任务敏感神经元。通过大量的去激活和微调实验,我们证明了检测到的神经元与给定的任务高度相关,我们将其称为任务特定神经元。通过这些确定的任务特定神经元,我们深入研究了多任务学习和连续学习中的两个常见问题:泛化和灾难性遗忘。我们发现任务特定神经元的重叠与任务之间的泛化和专业化密切相关。有趣的是,在LLMs的某些层次上,不同任务特定神经元的参数非常相似,这种相似性与泛化性能高度相关。受到这些发现的启发,我们提出了一种神经元级别的连续微调方法,在连续学习过程中仅微调当前任务特定神经元,并且广泛的实验证明了该方法的有效性。我们的研究为LLMs在多任务学习中的可解释性提供了洞见。
-
- 图表
- 解决问题论文试图从神经元的角度理解大型语言模型(LLMs)的多任务学习机制,解决多任务学习和连续学习中的泛化和灾难性遗忘问题。
- 关键思路通过梯度归因方法检测LLMs中的任务敏感神经元,并通过大量的去激活和微调实验证明这些神经元与给定任务高度相关,称之为任务特定神经元。发现任务特定神经元的重叠与任务间的泛化和特化密切相关,提出了一种神经元级别的连续微调方法,只微调当前任务特定神经元,实验结果表明该方法有效。
- 其它亮点论文发现LLMs的任务特定神经元可以用于解决多任务学习和连续学习中的泛化和灾难性遗忘问题,提出了神经元级别的连续微调方法。实验使用了多个数据集,并开源了代码,为LLMs的可解释性提供了新的思路。
- 相关研究包括但不限于:《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》、《Continual Learning with Hypernetworks》、《Meta-Learning for Semi-Supervised Few-Shot Classification》等。


提问交流