Large Language Models as Evaluators for Recommendation Explanations

简介

推荐系统的可解释性已经在学术界和工业界引起了重视。虽然已经做出了许多解释性推荐的努力，但是评估解释质量仍然是一个具有挑战性且未解决的问题。近年来，利用LLMs作为评估器在自然语言处理任务中（例如情感分类、信息提取）呈现出有前途的发展方向，因为它们在遵循指示和常识推理方面具有强大的能力。然而，评估推荐解释文本与这些NLG任务不同，因为其标准与人类感知相关，通常是主观的。本文研究LLMs是否可以作为推荐解释的评估器。为了回答这个问题，我们利用了以前工作中给出的真实用户反馈和额外收集的第三方注释和LLM评估。我们设计并应用了一个3级元评估策略来衡量评估器标签与用户提供的基本事实之间的相关性。我们的实验表明，LLMs（如GPT4）可以在适当的提示和设置下提供可比较的评估。我们还提供了结合人类标签和LLM评估过程的进一步见解，并利用多个异构LLM评估器的集成来增强评估的准确性和稳定性。我们的研究验证了利用LLMs作为评估器可以是一种准确、可重复和成本效益高的解决方案，用于评估推荐解释文本。我们的代码可在https://github.com/Xiaoyu-SZ/LLMasEvaluator上获得。
图表
解决问题

本论文旨在解决推荐系统中解释性评估的问题，探究是否可以利用LLMs作为评估器，并且比较其与人类评估结果的相关性。
关键思路

利用LLMs作为推荐解释性评估器，可以提供与人类评估结果相当的准确性和可重复性。
其它亮点

论文通过设计三级元评估策略，证明了LLMs可以作为推荐解释性评估器，并且在适当的提示和设置下，GPT4可以提供可比较的评估结果。此外，论文还探讨了将人类标签与LLMs评估过程相结合以及利用多个异构LLMs评估器进行集成以提高评估准确性和稳定性的方法。研究结果表明，利用LLMs作为评估器是一种准确、可重复且经济有效的解决方案。
相关研究

最近相关研究包括：1. Explainable Recommendation: A Survey and New Perspectives，2. Explainable AI: A Review of Machine Learning Interpretability Methods，3. A Survey of Explainable Artificial Intelligence (XAI)

Large Language Models as Evaluators for Recommendation Explanations

评论