- 简介确保大型语言模型(LLMs)反映多样化的用户价值和偏好非常重要,因为它们的用户群在全球范围内不断扩大。因此,看到研究界对LLM个性化的兴趣日益增长是令人鼓舞的。然而,目前的研究往往依赖于LLM作为评判者的方法进行评估,而没有彻底检验其有效性。在本文中,我们调查了LLM作为个性化评判者的可靠性,要求LLMs根据人物角色来判断用户的偏好。我们的研究结果表明,直接应用LLM作为个性化评判者的可靠性比之前假定的要低,与人类真实情况的一致性很低且不一致。通常使用的人物角色过于简单,导致预测能力较低。为了解决这些问题,我们将口头不确定性估计引入到LLM作为个性化评判者的流程中,使模型能够对不确定判断表达出低置信度。这种调整导致在二元任务的高置信度样本上产生了更高的一致性(超过80%)。通过人类评估,我们发现LLM作为个性化评判者在高置信度样本上实现了与第三方人类评估相当的性能,甚至超过了人类表现。我们的工作表明,增强置信度的LLM作为个性化评判者为开发更可靠和可扩展的LLM个性化评估方法提供了一个有前途的方向。
- 图表
- 解决问题本论文旨在解决LLM个性化评价的可靠性问题,通过引入口头不确定性估计提高模型的判断准确性。
- 关键思路论文提出了一种基于LLM的个性化评价方法,并通过引入口头不确定性估计来提高模型的可靠性和准确性。
- 其它亮点论文发现直接应用LLM作为个性化评价的判断者的可靠性比先前假设的低,提出了引入口头不确定性估计来提高模型的可靠性和准确性。实验结果表明,这种方法在高置信度样本上的准确性和人类评价相当,并且在高置信度样本上甚至超过了人类评价。论文的数据集和代码已开源。
- 最近的相关研究包括:《Personalizing Dialogue Agents: I have a dog, do you have pets too?》、《Towards Personalized Text Generation》、《A Survey of Personalization in Intelligent Systems》等。
沙发等你来抢
去评论
评论
沙发等你来抢