Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models

简介

本文研究了在大语言模型(LLMs)时代下，文本分类这一重要任务的局限性。研究表明，LLMs对文本分类中选项数量和排列顺序的变化很敏感。作者通过广泛的实证分析发现，这一问题的关键瓶颈在于模糊的决策边界和对特定标记和位置的固有偏见。为了缓解这些问题，作者首次提出了一种新的LLMs两阶段分类框架。该方法基于实证观察，即成对比较可以有效减少边界模糊和固有偏见。具体来说，作者采用自我缩减技术，以有效缩小众多选项，从而减少决策空间和加快比较过程。随后，通过一系列思维链式成对比较，以凸显微妙之处并区分易混淆的选项，从而精细化模糊的决策边界。在四个数据集（Banking77、HWU64、LIU54和Clinic150）上的广泛实验验证了该框架的有效性。此外，受益于该框架，各种LLMs都可以实现一致的改进。作者提供了代码和数据，可在\url{https://github.com/Chuge0335/PC-CoT} 上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决大语言模型在文本分类中的问题，特别是对于选项数量和排列方式的变化容易出现的问题。
关键思路

该论文提出了一个新的两阶段分类框架，通过自我缩减技术和成对比较来缓解边界模糊和内在偏差的问题。
其它亮点

论文通过实验验证了该框架的有效性，并提供了开源代码和数据集。该框架对于各种大语言模型都能带来一致的改进。
相关研究

最近的相关研究包括使用大语言模型进行文本分类的研究，以及解决文本分类中边界模糊和内在偏差的方法的研究。

Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models

提问交流

提问交流