- 简介随着大型语言模型(LLMs)的兴起,基于提示学习的方法已成为各个研究领域的主要研究方法之一,近年来,许多基于提示学习的尝试都是为了提高文本分类的性能。然而,这些方法大多基于启发式的思维链(CoT),往往更加复杂但不够高效。本文重新思考了基于LLM的文本分类方法,提出了一种简单而有效的迁移学习策略,即LLMEmbed,来解决这个经典但具有挑战性的任务。首先,我们研究如何通过不同网络深度的各种轻量级LLMs正确提取和融合文本嵌入,以提高它们的鲁棒性和区分度,然后将这些嵌入适应于训练分类器。我们在公开可用的数据集上进行了广泛的实验,结果表明,与基于更大的LLMs(即GPT-3)和复杂的提示策略的最近方法相比,LLMEmbed使用轻量级LLM骨干网络实现了强大的性能,同时享有低训练开销。我们的LLMEmbed在不进行任何微调的情况下,在公开可用的基准测试中实现了足够的准确性,仅使用4%的模型参数,1.8%的电力消耗和1.5%的运行时间,与其同行相比。代码可在以下链接中找到:https://github.com/ChunLiu-cs/LLMEmbed-ACL2024。
-
- 图表
- 解决问题本文旨在重新思考基于大语言模型(LLM)的文本分类方法,并提出一种简单有效的迁移学习策略LLMEmbed,以解决这个经典但具有挑战性的任务。
- 关键思路LLMEmbed通过使用不同网络深度的轻量级LLM来提取和融合文本嵌入,以提高它们的鲁棒性和区分度,并将这些嵌入适应到训练分类器中。
- 其它亮点LLMEmbed在公开数据集上取得了强大的性能,同时使用轻量级LLM骨干网络,比基于更大LLM(如GPT-3)和复杂的基于提示的策略的最近方法具有更低的训练开销。该方法在没有微调的情况下就能够在公开基准上获得足够的准确性,仅使用4%的模型参数,1.8%的电力消耗和1.5%的运行时间。作者已经在GitHub上公开了代码。
- 最近在这个领域中,还有一些相关研究,如《Chain-of-Thought Networks for Text Classification》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流