- 简介大型语言模型(LLMs)仍然缺乏对其回复的精细可控性,这对于提高其性能和用户体验至关重要。然而,策划用于改善LLM可控性的受监督微调(SFT)数据集通常依赖于人类专家或专有的LLMs,这需要额外的成本。为了弥合这一差距,我们提出了基于规则的数据回收(RuleR),这是一种数据增强方法,根据预定义的规则将多个约束条件合并到原始数据样本中,从而创建新的训练任务以巩固LLMs的可控性。RuleR不是从头开始创建新数据,而是通过简单地对其响应应用基于规则的编辑并将规则说明附加在其原始说明中来“回收”现有数据。实验结果表明,RuleR在提高LLM可控性的同时保持了一般的指令遵循能力,其代码将在https://github.com/MingLiiii/RuleR上发布。
- 图表
- 解决问题论文旨在提高大型语言模型(LLMs)的可控性,通过规则数据回收(RuleR)实现数据增强,从而减少人工成本和提高性能。是否这是一个新问题?
- 关键思路RuleR是一种数据增强方法,通过将多个约束条件应用于原始数据样本,按照预定义规则创建新的训练任务,从而提高LLMs的可控性。相比于当前领域的研究,RuleR的创新之处在于它可以通过简单地编辑现有数据来创建新数据,而不需要从头开始收集新数据。
- 其它亮点论文通过实验验证了RuleR在提高LLMs可控性的同时保持了其一般指令遵循能力的有效性。作者还将代码发布在https://github.com/MingLiiii/RuleR上。值得关注的是,RuleR可以减少人工成本,提高性能,因此具有实际应用价值。
- 最近在这个领域中,还有一些相关的研究,例如《Controllable Text Generation》、《Plug and Play Language Models: A Simple Approach to Controlled Text Generation》等。
沙发等你来抢
去评论
评论
沙发等你来抢