- 简介指令调整通常意味着在指令-响应对上微调语言模型。我们发现两种调整方式(调整)相对于指令调整存在不足,但仍可实现指令跟随;我们称之为隐式指令调整。我们首先发现指令-响应对不是必需的:仅在响应上进行训练,没有任何相应的指令,也可以实现指令跟随。这表明,预训练模型具有指令-响应映射,通过向模型教授所需响应分布,可以揭示该映射。然而,我们接着发现,不必教授所需的响应分布:在狭窄领域数据(如诗歌)上进行指令-响应训练仍会导致广泛的指令跟随行为,如配方生成。特别地,当指令与微调领域中的指令非常不同时,模型的响应不会遵循微调领域的风格。为了开始解释隐式指令调整,我们假设对语言模型的分布进行非常简单的更改就可以实现指令跟随。我们通过手写基于规则的语言模型来支持这一点,在预训练模型中实现了指令跟随。规则是缓慢增加序列结束的概率,惩罚重复,并统一更改15个单词的概率。总之,未经设计以实现指令跟随的调整也可以隐式地实现指令跟随。
-
- 图表
- 解决问题论文试图探究不经过instruction-response pair finetuning的模型是否能够实现instruction following,以及狭窄领域数据的instruction-response finetuning是否能够实现广泛的instruction following。
- 关键思路论文发现,即使没有instruction-response pair的训练,只对response进行训练也能够实现instruction following。同时,使用狭窄领域数据进行instruction-response finetuning也能够实现广泛的instruction following,即使instruction与狭窄领域数据不同。作者通过手写规则模型进一步验证了简单的改变语言模型分布也能实现instruction following。
- 其它亮点论文通过实验证明了不经过instruction-response pair finetuning的模型也能够实现instruction following,这一发现有助于减少模型训练的时间和成本。此外,使用狭窄领域数据进行instruction-response finetuning也能够实现广泛的instruction following,这一发现有助于模型在不同领域的应用。作者还通过手写规则模型验证了简单的改变语言模型分布也能实现instruction following。
- 与本论文相关的研究包括:1.《Fine-Tuning Language Models from Human Preferences》;2.《How to Fine-Tune BERT for Text Classification?》;3.《The Curious Case of Neural Text Degeneration》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流