Optimizing Algorithms From Pairwise User Preferences

Leonid Keselman, Katherine Shih, Martial Hebert, Aaron Steinfeld
[CMU]

基于用户成对偏好的优化算法

  • SortCMA算法可以根据用户的配对比较优选,在没有可用度量或奖励函数的情况下,高效且鲁棒地进行高维参数空间的优化,SortCMA与一般的贝叶斯优化方法不同,不需要建立奖励模型。
  • SortCMA算法能很好地应对用户判断错误提供的错误反馈,实验结果表明,即使在存在一定程度迭代输入错误,算法也能鲁棒地收敛到优解。
  • 论文通过两个应用案例证明了SortCMA算法的通用性:调优深度传感器的参数和调优社交导航算法的参数,这两个应用场景难以建立定量度量函数,但SortCMA算法仍然获取了用户满意的结果。
  • 论文通过在社交导航场景下的用户实验展示,SortCMA调优出的算法参数 set 可以产生一般用户更倾向的机器人行为方式,而直接建模奖励函数的方法难以匹配用户真实喜好。
  • 整体来说,与直接建模难度大的人机交互喜好相比,SortCMA算法利用用户的配对比较更为直接和有效地在没有ground truth的情况下进行参数空间的优化,提供了一种新的人机协作方法。

动机:传统的黑盒优化方法通常依赖于度量分数进行学习,但并非所有开发者都能获得准确的度量分数。在人类中心的环境中学习适当的机器人行为通常需要向用户查询,但用户往往无法提供精确的度量分数。本文介绍了一种名为SortCMA的方法,可以基于用户的两两偏好来优化高维算法参数配置,而无需直接建模奖励。
方法:SortCMA方法通过有效且鲁棒地利用用户输入,找到参数集合,而无需直接建模奖励。它利用用户的两两偏好来优化高维参数空间中的算法参数配置。该方法结合了CMA-ES(Covariance Matrix Adaptation Evolution Strategy)优化方法和排序方法,能快速收敛并适用于多个领域。
优势:SortCMA方法在没有准确度量分数的情况下,可以有效地优化参数集合,并且适用于复杂的用户偏好。它不仅能优化商用深度传感器的参数配置,还能够优化机器人的社会化导航算法。研究表明,SortCMA方法可以成功地优化用户的目标,并进行用户研究来评估社交导航的结果。

介绍了一种基于用户两两偏好的方法SortCMA,可以在没有准确度量分数的情况下优化高维算法参数配置,具有广泛的适用性和较快的收敛速度。

https://arxiv.org/abs/2308.04571 


图片

图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除