- 简介将非结构化文本转化为结构化且有意义的形式,通过有用的类别标签进行组织,是文本挖掘中用于下游分析和应用的基本步骤。然而,大多数现有的产生标签分类法和构建基于文本标签的分类器的方法仍然严重依赖于领域专业知识和人工策划,使得这个过程昂贵且耗时。当标签空间未经明确规定且大规模数据注释不可用时,这尤其具有挑战性。在本文中,我们使用大型语言模型(LLMs)来解决这些挑战,其基于提示的界面有助于诱导和使用大规模的伪标签。我们提出了TnT-LLM,这是一个两阶段框架,利用LLMs自动化地生成和分配标签,对于任何给定的用例,需要最少的人力。在第一阶段中,我们介绍了一种零样本、多阶段推理方法,使LLMs能够迭代地生成和细化标签分类法。在第二阶段中,LLMs被用作数据标注器,产生训练样本,以便可以可靠地构建轻量级监督分类器,进行规模化地部署和服务。我们将TnT-LLM应用于Bing Copilot(前身为Bing Chat),一个开放领域的聊天搜索引擎,用于用户意图和对话领域的分析。广泛的实验使用人工和自动评估指标,证明TnT-LLM与最先进的基线相比,生成更准确和相关的标签分类法,并在分类规模上实现了准确性和效率的有利平衡。我们还分享了使用LLMs进行大规模文本挖掘的挑战和机遇的实际经验和见解。
- 图表
- 解决问题本文试图通过使用大型语言模型(LLMs)来自动化生成标签并分配标签,以解决标签分类的高成本和耗时问题。
- 关键思路本文提出了TnT-LLM框架,使用LLMs自动生成标签,并使用轻量级监督分类器进行训练,以实现标签分类的自动化。
- 其它亮点本文的亮点包括:使用LLMs自动生成标签,提出了TnT-LLM框架,通过实验验证了TnT-LLM的有效性和高效性。
- 近期相关研究包括:使用半监督学习的方法进行标签分类,使用深度学习方法进行文本分类。
沙发等你来抢
去评论
评论
沙发等你来抢