Towards Practical Tool Usage for Continually Learning LLMs

简介

大型语言模型（LLMs）表现出天生解决基于语言的任务的技能。但是，洞察力表明，由于它们的知识直接存储在它们的参数中，因此它们无法调整信息或任务解决技能以适应过时，因为它们的知识在时间上保持静态。工具使用有助于通过接口将工作卸载到LLM可以访问的系统中，但是使用它们的LLM仍然必须适应非静态环境以进行长时间使用，因为新工具可能会出现，现有工具可能会改变。然而，工具需要较少的专业知识，因此我们假设它们更适合于连续学习（CL），因为它们在解决任务时更少依赖参数记忆，而是专注于学习何时应用预定义的工具。为了验证这一点，我们开发了一个合成基准，并通过聚合现有的NLP任务形成了一个更现实的测试场景。虽然我们证明了扩展模型大小不是解决方案，无论是否使用工具，但是连续学习技术可以使工具LLMs更快地适应并减少遗忘，突显了它们作为连续学习者的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图验证使用工具可以使大型语言模型更适合于持续学习，因为它们依赖于学习何时应用预定义的工具，而不是参数记忆，从而可以更快地适应非静态环境。
关键思路

使用工具可以使大型语言模型更适合于持续学习，因为它们依赖于学习何时应用预定义的工具，而不是参数记忆。
其它亮点

论文开发了一个合成基准，并聚合了现有的NLP任务来形成更现实的测试场景，证明了模型大小的扩展并不能解决问题，而使用持续学习技术可以使工具LLMs更快地适应非静态环境并减少遗忘。
相关研究

在最近的相关研究中，已经有一些关于大型语言模型持续学习的研究，包括《Continual Learning for Natural Language Generation with Knowledge Distillation》和《Continual Learning for NLP: An Overview》。

Towards Practical Tool Usage for Continually Learning LLMs

提问交流

提问交流