LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification

2024年06月06日
  • 简介
    随着大型语言模型(LLMs)的兴起,基于提示学习的方法已成为各个研究领域的主要研究方法之一,近年来,许多基于提示学习的尝试都是为了提高文本分类的性能。然而,这些方法大多基于启发式的思维链(CoT),往往更加复杂但不够高效。本文重新思考了基于LLM的文本分类方法,提出了一种简单而有效的迁移学习策略,即LLMEmbed,来解决这个经典但具有挑战性的任务。首先,我们研究如何通过不同网络深度的各种轻量级LLMs正确提取和融合文本嵌入,以提高它们的鲁棒性和区分度,然后将这些嵌入适应于训练分类器。我们在公开可用的数据集上进行了广泛的实验,结果表明,与基于更大的LLMs(即GPT-3)和复杂的提示策略的最近方法相比,LLMEmbed使用轻量级LLM骨干网络实现了强大的性能,同时享有低训练开销。我们的LLMEmbed在不进行任何微调的情况下,在公开可用的基准测试中实现了足够的准确性,仅使用4%的模型参数,1.8%的电力消耗和1.5%的运行时间,与其同行相比。代码可在以下链接中找到:https://github.com/ChunLiu-cs/LLMEmbed-ACL2024。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在重新思考基于大语言模型(LLM)的文本分类方法,并提出一种简单有效的迁移学习策略LLMEmbed,以解决这个经典但具有挑战性的任务。
  • 关键思路
    LLMEmbed通过使用不同网络深度的轻量级LLM来提取和融合文本嵌入,以提高它们的鲁棒性和区分度,并将这些嵌入适应到训练分类器中。
  • 其它亮点
    LLMEmbed在公开数据集上取得了强大的性能,同时使用轻量级LLM骨干网络,比基于更大LLM(如GPT-3)和复杂的基于提示的策略的最近方法具有更低的训练开销。该方法在没有微调的情况下就能够在公开基准上获得足够的准确性,仅使用4%的模型参数,1.8%的电力消耗和1.5%的运行时间。作者已经在GitHub上公开了代码。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如《Chain-of-Thought Networks for Text Classification》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问