LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification

简介

随着大型语言模型（LLMs）的兴起，基于提示学习的方法已成为各个研究领域的主要研究方法之一，近年来，许多基于提示学习的尝试都是为了提高文本分类的性能。然而，这些方法大多基于启发式的思维链（CoT），往往更加复杂但不够高效。本文重新思考了基于LLM的文本分类方法，提出了一种简单而有效的迁移学习策略，即LLMEmbed，来解决这个经典但具有挑战性的任务。首先，我们研究如何通过不同网络深度的各种轻量级LLMs正确提取和融合文本嵌入，以提高它们的鲁棒性和区分度，然后将这些嵌入适应于训练分类器。我们在公开可用的数据集上进行了广泛的实验，结果表明，与基于更大的LLMs（即GPT-3）和复杂的提示策略的最近方法相比，LLMEmbed使用轻量级LLM骨干网络实现了强大的性能，同时享有低训练开销。我们的LLMEmbed在不进行任何微调的情况下，在公开可用的基准测试中实现了足够的准确性，仅使用4％的模型参数，1.8％的电力消耗和1.5％的运行时间，与其同行相比。代码可在以下链接中找到：https://github.com/ChunLiu-cs/LLMEmbed-ACL2024。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在重新思考基于大语言模型（LLM）的文本分类方法，并提出一种简单有效的迁移学习策略LLMEmbed，以解决这个经典但具有挑战性的任务。
关键思路

LLMEmbed通过使用不同网络深度的轻量级LLM来提取和融合文本嵌入，以提高它们的鲁棒性和区分度，并将这些嵌入适应到训练分类器中。
其它亮点

LLMEmbed在公开数据集上取得了强大的性能，同时使用轻量级LLM骨干网络，比基于更大LLM（如GPT-3）和复杂的基于提示的策略的最近方法具有更低的训练开销。该方法在没有微调的情况下就能够在公开基准上获得足够的准确性，仅使用4％的模型参数，1.8％的电力消耗和1.5％的运行时间。作者已经在GitHub上公开了代码。
相关研究

最近在这个领域中，还有一些相关研究，如《Chain-of-Thought Networks for Text Classification》。

LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification

提问交流

提问交流