- 简介大型语言模型(LLMs)已经在会话式推荐系统(CRS)中展示出了巨大的潜力。然而,将LLMs应用于CRS揭示出了LLM-based CRS和人类推荐人之间行为上的明显差异:LLMs通常表现出缺乏灵活性和被动性,经常急于完成推荐任务而没有足够的询问。这种行为差异可能导致推荐准确性降低和用户满意度降低。尽管这很重要,但现有的CRS研究缺乏如何衡量这种行为差异的研究。为了填补这个空白,我们提出了行为对齐(Behavior Alignment),一种新的评估指标,用于衡量LLM-based CRS所做的推荐策略与人类推荐人的一致性。我们的实验结果表明,这个新指标更符合人类的偏好,可以更好地区分系统的表现,比现有的评估指标更好。由于行为对齐需要对推荐策略进行明确而昂贵的人工注释,我们还提出了一种基于响应的分类方法,以隐式地测量行为对齐。评估结果证实了该方法的鲁棒性。
- 图表
- 解决问题本文旨在解决LLMs在CRS中表现不如人的问题,提出了一种新的评估指标——行为对齐度,用于衡量LLMs在推荐策略上与人类推荐者的一致性。
- 关键思路本文提出了一种新的评估指标——行为对齐度,用于衡量LLMs在推荐策略上与人类推荐者的一致性。同时,为了避免昂贵的人工评注,还提出了一种基于响应的分类方法来隐式衡量行为对齐度。
- 其它亮点本文提出了一种新的评估指标——行为对齐度,能够更好地衡量LLMs在推荐策略上与人类推荐者的一致性,并且提出了一种基于响应的分类方法来隐式衡量行为对齐度。实验结果表明,该指标比现有评估指标更能反映人类偏好,并且能够更好地区分系统的表现。
- 最近的相关研究包括:《A Survey of Conversational Recommender Systems》、《Conversational Recommender Systems: A Survey and Future Directions》等。
沙发等你来抢
去评论
评论
沙发等你来抢