Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation

简介

查询和文档之间的主题相关性是社交搜索非常重要的一部分，可以评估文档与用户需求的匹配程度。在大多数社交搜索场景（如大众点评）中，建模搜索相关性总是面临两个挑战。一是社交搜索中许多文档非常长，有很多冗余信息。另一个是搜索相关性模型的训练数据很难获得，特别是对于多分类相关性模型。为了解决上述两个问题，我们首先将查询与基于查询的摘要以及不带查询的文档摘要串联起来作为主题相关性模型的输入，这可以帮助模型学习查询和文档核心主题之间的相关程度。然后，我们利用大型语言模型（LLM）的语言理解和生成能力，从现有的训练数据中重写和生成查询，从而构建新的查询-文档对作为训练数据。广泛的离线实验和在线A / B测试表明，所提出的方法有效地提高了相关性建模的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何提高社交搜索中的主题相关性模型的性能？
关键思路

将查询与基于查询的摘要以及不带查询的文档摘要连接起来，利用大型语言模型的语言理解和生成能力，重写和生成查询，以构建新的查询-文档对作为训练数据
其它亮点

使用了大型语言模型，解决了社交搜索中文档冗余信息和数据集稀缺的问题，提高了主题相关性模型的性能
相关研究

社交搜索中的主题相关性模型的相关研究包括：《A Hybrid Model for Social Search》、《Topic Modeling for Social Media》等

Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation

提问交流

提问交流