Efficient course recommendations with T5-based ranking and summarization

向作者提问

NEW

简介

本文针对技能-职业匹配的课程推荐系统，实现并评估了一个两阶段检索流程。在生产中使用的推荐系统BrightFit提供了来自多个来源的课程推荐。其中一些课程描述很长且嘈杂，而在线系统中的检索和排序必须高效。我们开发了一个两步检索流程，使用在MSMARCO上微调的RankT5作为再排序器。我们比较了两种课程描述的摘要方法：我们针对任务微调的LongT5模型和具有上下文学习的生成式LLM（Vicuna）。我们尝试使用量化来减小排名模型的大小并增加推断速度。我们使用A/B测试和用户问卷调查评估了我们的排名器在两个新标记的数据集上的表现。在这两个标记数据集上，我们提出的具有自动摘要的两阶段排名比生产中的（BM25）排名器有了显著的改进：nDCG@10分数从0.482提高到0.684和从0.447提高到0.844。我们还通过使用RankT5的量化版本实现了40%的加速。29位受访者填写的问卷调查确认了排名的改进质量，但A/B测试并未证实。在A/B测试中，BM25排名比提出的两阶段检索获得了更高的点击率。我们得出结论：对于在线课程推荐，基于T5的再排序和摘要可以比单步词汇检索获得更好的效果，并且量化对RankT5有很大的影响。然而，在线评估中，除了相关性外，其他因素（如检索结果的速度和可解释性）以及个人偏好也起着重要作用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文针对课程推荐系统的排名问题，提出了一个基于两阶段检索的解决方案，通过自动摘要和T5模型的再排序来提高排名效果。
关键思路

本论文的关键思路是使用两阶段检索，第一阶段使用BM25进行粗排，第二阶段使用经过MSMARCO数据集微调的RankT5模型进行再排序，同时使用自动摘要技术对课程描述进行处理。通过实验验证了该方案的有效性。
其它亮点

本论文使用了两个新颖的技术：T5模型和自动摘要技术，同时还使用了新标注的数据集进行评估。实验结果表明，本论文提出的方案相比于传统的BM25排名方法，可以大幅提高排名效果。同时，本论文还尝试了模型量化技术，使得模型推理速度得到了显著提高。值得进一步研究的工作包括如何平衡排名效果、推理速度和结果可解释性。
相关研究

最近的相关研究包括：《Learning to Rank》、《Neural Information Retrieval: At the End of the Early Years》、《BERT for Passage Ranking》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问