FairEvalLLM. A Comprehensive Framework for Benchmarking Fairness in Large Language Model Recommender Systems

2024年05月03日
  • 简介
    本文提出了一个框架来评估由大型语言模型(RecLLMs)驱动的推荐系统中的公平性,解决了需要跨越各种公平维度的统一方法的需求,包括对用户属性的敏感性、内在公平性以及基于潜在利益的公平性讨论。此外,我们的框架引入了反事实评估,并整合了多样化的用户群体考虑,以增强对RecLLMs公平评估的讨论。 我们的主要贡献包括开发了一个强大的框架,用于评估基于LLM的推荐的公平性,以及一种从人口统计数据、历史用户偏好和最近的交互中创建“信息用户档案”的结构化方法。我们认为,后者对于增强这种系统中的个性化至关重要,特别是在时间驱动的情况下。我们通过对两个数据集LastFM-1K和ML-1M进行实际应用来证明我们框架的实用性。我们对每个数据集的80个用户进行实验,测试和评估各种提示构建场景和上下文学习的有效性,包括50多种场景。这导致了4000多个推荐(80 * 50 = 4000)。我们的研究表明,在涉及敏感属性的情况下,虽然没有显着的不公平问题,但仍存在一些问题。然而,在涉及内在公平性的方面,即不涉及直接敏感性的方面,不同人口群体之间的不公平仍然显著。本文使用的代码和数据可在以下网址获取:\url{https://shorturl.at/awBFM}。
  • 图表
  • 解决问题
    本论文旨在提出一种评估基于大型语言模型的推荐系统公平性的框架,涵盖了用户属性敏感性、内在公平性、基于潜在利益的公平性等多个公平性维度。同时,该框架引入了反事实评估和多元用户群体考虑,以增强对RecLLMs公平性评估的讨论。
  • 关键思路
    该论文提出了一种针对LLM推荐系统的公平性评估框架,并提出了从人口统计数据、历史用户偏好和最近交互中创建信息性用户资料的结构化方法。该方法对于增强这类系统中的个性化推荐至关重要,特别是在时间驱动的场景中。
  • 其它亮点
    论文在两个数据集上进行了实际应用,展示了该框架的实用性。研究人员在每个数据集中选择了80个用户,测试和评估了各种提示构建场景和上下文学习的有效性,共计超过50个场景,得出了超过4000个推荐结果。研究发现,虽然在涉及敏感属性的场景中没有重大不公平问题,但在内在公平性方面,跨人口统计学群体的不公平性仍然显著。该论文提供了代码和数据,可供使用。
  • 相关研究
    最近的相关研究包括:1. Fairness-aware recommendation with diversity, accuracy and coverage. 2. Fairness in recommendation ranking through pairwise comparisons. 3. Fairness in recommendation: a survey.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论