Mapping Social Choice Theory to RLHF

简介

最近的研究探讨了使用人类反馈的强化学习（RLHF）将人类偏好融入模型行为的局限性，通常将社会选择理论作为参考点。社会选择理论对投票机制等场景的分析提供了技术基础，可以指导如何在意见分歧中汇总人类偏好。我们分析了社会选择和RLHF的问题设置，确定了它们之间的关键差异，并讨论了这些差异如何影响RLHF对社会选择中众所周知的技术结果的解释。
图表
解决问题

本论文旨在分析强化学习从人类反馈中获得人类偏好的局限性，并将社会选择理论作为参考点，以解决如何在意见不一致的情况下聚合人类偏好的问题。
关键思路

该论文分析了社会选择和强化学习从人类反馈中获得人类偏好的问题设置，识别了它们之间的关键差异，并讨论了这些差异如何影响强化学习从人类反馈中获得人类偏好的解释。
其它亮点

该论文的亮点在于将社会选择理论作为参考点，以解决如何在意见不一致的情况下聚合人类偏好的问题。论文还提供了对强化学习从人类反馈中获得人类偏好的局限性的深入分析。实验使用了多个数据集，并提供了开源代码。
相关研究

在这个领域中的其他相关研究包括：'Deep Reinforcement Learning from Human Preferences'、'Inverse Reward Design'和'Preference-Based Reinforcement Learning'等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论