- 简介推荐系统的可解释性已经引起了学术界和工业界的广泛关注。为了提供可解释的推荐,已经做出了许多努力,但是评估解释质量仍然是一个具有挑战性且未解决的问题。近年来,利用LLM作为评估器在自然语言处理任务(如情感分类、信息提取)中呈现出有前途的发展方向,因为它们在指令跟随和常识推理方面具有强大的能力。然而,评估推荐解释文本与这些自然语言生成任务不同,因为其标准与人类感知相关,通常是主观的。本文研究LLM是否可以作为推荐解释的评估器。为了回答这个问题,我们利用之前工作中给出的真实用户反馈的解释,并额外收集了第三方注释和LLM评估。我们设计并应用了一个三级元评估策略来衡量评估器标签与用户提供的基本事实之间的相关性。我们的实验表明,LLM(如GPT4)在适当的提示和设置下可以提供可比较的评估。我们还提供了将人类标签与LLM评估过程相结合以及利用多个异构LLM评估器集成来提高评估的准确性和稳定性的进一步见解。我们的研究验证了利用LLM作为评估器可以是一种准确、可重复和成本效益的评估推荐解释文本的解决方案。我们的代码可在https://github.com/Xiaoyu-SZ/LLMasEvaluator上获得。
- 图表
- 解决问题论文探讨了如何利用LLMs作为评估器来评估推荐系统的解释性,并解决了评估推荐解释质量的挑战性问题。
- 关键思路论文的关键思路是利用LLMs作为评估器来评估推荐解释的质量,并通过三级元评估策略来验证其准确性和稳定性。
- 其它亮点论文通过实验验证了LLMs可以作为评估器来评估推荐解释的质量,并提出了将人类标签与LLMs评估过程相结合的方法以提高准确性和稳定性。研究还开源了代码。
- 近年来,解释型推荐系统的研究备受关注。该领域的相关研究包括:《Explainable Recommendation: A Survey and New Perspectives》、《Explainable Recommendation: What Makes a Recommendation Explainable?》等。
沙发等你来抢
去评论
评论
沙发等你来抢