- 简介大型语言模型(LLMs)表现出天生解决基于语言的任务的技能。但是,洞察力表明,由于它们的知识直接存储在它们的参数中,因此它们无法调整信息或任务解决技能以适应过时,因为它们的知识在时间上保持静态。工具使用有助于通过接口将工作卸载到LLM可以访问的系统中,但是使用它们的LLM仍然必须适应非静态环境以进行长时间使用,因为新工具可能会出现,现有工具可能会改变。然而,工具需要较少的专业知识,因此我们假设它们更适合于连续学习(CL),因为它们在解决任务时更少依赖参数记忆,而是专注于学习何时应用预定义的工具。为了验证这一点,我们开发了一个合成基准,并通过聚合现有的NLP任务形成了一个更现实的测试场景。虽然我们证明了扩展模型大小不是解决方案,无论是否使用工具,但是连续学习技术可以使工具LLMs更快地适应并减少遗忘,突显了它们作为连续学习者的潜力。
-
- 图表
- 解决问题论文试图验证使用工具可以使大型语言模型更适合于持续学习,因为它们依赖于学习何时应用预定义的工具,而不是参数记忆,从而可以更快地适应非静态环境。
- 关键思路使用工具可以使大型语言模型更适合于持续学习,因为它们依赖于学习何时应用预定义的工具,而不是参数记忆。
- 其它亮点论文开发了一个合成基准,并聚合了现有的NLP任务来形成更现实的测试场景,证明了模型大小的扩展并不能解决问题,而使用持续学习技术可以使工具LLMs更快地适应非静态环境并减少遗忘。
- 在最近的相关研究中,已经有一些关于大型语言模型持续学习的研究,包括《Continual Learning for Natural Language Generation with Knowledge Distillation》和《Continual Learning for NLP: An Overview》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流