Fine-Tuned 'Small' LLMs (Still) Significantly Outperform Zero-Shot Generative AI Models in Text Classification

2024年06月12日
  • 简介
    生成式人工智能为文本分类任务提供了一种简单的基于提示的替代方案,避免了手动标注训练数据和任务特定模型训练的需求。然而,ChatGPT等工具是否能够兑现这一承诺仍是一个未解决的问题。在本文中,我们展示了较小的、经过微调的LLM在文本分类中始终比较大的、零样本提示模型表现更为出色,这一点得到了显著验证。我们比较了三种主要的生成式人工智能模型(ChatGPT与GPT-3.5/GPT-4以及Claude Opus)与几个经过微调的LLM在不同的分类任务(情感、赞成/反对、情绪、政党立场)和文本类别(新闻、推文、演讲)中的表现。我们发现,使用特定于应用程序的训练数据进行微调在所有情况下都能取得更好的性能。为了使这种方法更容易被广泛接受,我们提供了一个易于使用的工具包,伴随着非技术性的逐步指导,使用户能够在最小的技术和计算成本下选择和微调BERT类LLM以适用于任何分类任务。
  • 图表
  • 解决问题
    比较fine-tuned LLMs和零-shot prompted models在文本分类任务上的表现,探讨是否可以通过prompt-based方法来消除手动标记的训练数据和任务特定模型训练的需求。
  • 关键思路
    论文通过对比多个模型在不同分类任务和文本类别上的表现,发现fine-tuned LLMs在所有情况下都比prompted models表现更好。同时,提供了一个易于使用的工具包,使用户可以在最小的技术和计算成本下选择和fine-tune BERT-like LLMs来进行任何分类任务。
  • 其它亮点
    实验结果表明,fine-tuned LLMs在所有分类任务和文本类别上都表现更好。同时,提供了一个易于使用的工具包,使用户可以在最小的技术和计算成本下选择和fine-tune BERT-like LLMs来进行任何分类任务。
  • 相关研究
    最近的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论