Using LLMs for the Extraction and Normalization of Product Attribute Values

简介

电子商务网站上的产品提供通常由文本产品标题和文本产品描述组成。为了提供诸如面向属性的产品过滤或基于内容的产品推荐等功能，网站需要从非结构化的产品描述中提取属性-值对。本文探讨了使用大型语言模型（LLMs），例如OpenAI的GPT-3.5和GPT-4，从产品标题和产品描述中提取和规范化属性值的潜力。为了进行实验，我们介绍了WDC产品属性-值提取（WDC PAVE）数据集。WDC PAVE包括来自87个提供schema$.$org注释的网站的产品提供。这些提供属于五个不同的类别，每个类别都具有特定的属性集。该数据集以两种形式提供手动验证的属性-值对：（i）直接提取的值和（ii）规范化的属性值。属性值的规范化需要系统执行以下类型的操作：名称扩展、概括、单位规范化和字符串处理。我们的实验表明，GPT-4的表现优于基于PLM的提取方法10％，达到91％的F1分数。对于产品属性值的提取和规范化，GPT-4实现了类似于提取情况的性能，同时在字符串处理和名称扩展方面表现特别强。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探索使用大型语言模型（LLMs）从产品标题和描述中提取和规范属性值，以解决电子商务网站中产品属性值提取的问题。
关键思路

使用GPT-3.5和GPT-4等大型语言模型，通过对WDC PAVE数据集进行实验，实现了属性值的提取和规范化，其中规范化需要进行名称扩展、泛化、测量单位规范化和字符串操作等操作。
其它亮点

论文引入了WDC PAVE数据集，提供了手动验证的属性值对，数据集中的实验表明GPT-4的性能比PLM-based的方法高出10%，在字符串操作和名称扩展方面表现尤为出色。
相关研究

近期在这个领域中的相关研究包括：《BERT for Joint Intent Classification and Slot Filling》、《A Survey of Named Entity Recognition and Classification》等。

Using LLMs for the Extraction and Normalization of Product Attribute Values

提问交流

提问交流