- 简介本文讨论了偏好学习的问题,旨在从视觉输入中学习用户特定的偏好(例如,“好的停车位”,“方便的下车位置”)。尽管它类似于学习事实概念(例如,“红色立方体”),但由于其主观性质和个人特定训练数据的缺乏,偏好学习是一个根本上更难的问题。我们使用一种名为Synapse的新框架来解决这个问题,它是一种神经符号化方法,旨在从有限的演示中有效地学习偏好概念。Synapse将偏好表示为领域特定语言(DSL)中的神经符号化程序,该程序在图像上运行,并利用视觉解析、大型语言模型和程序合成的新颖组合来学习表示个人偏好的程序。我们通过广泛的实验评估了Synapse,包括一个用户案例研究,重点关注移动机器人和自动驾驶中的移动性相关概念。我们的评估表明,Synapse明显优于现有的基线以及自身的消融实验。代码和其他细节可以在项目网站https://amrl.cs.utexas.edu/synapse上找到。
- 图表
- 解决问题本文旨在解决偏好学习问题,即如何从视觉输入中学习用户特定的偏好。这是一个新问题,因为由于主观性和个人训练数据的缺乏,偏好学习比学习客观概念更加困难。
- 关键思路本文提出了一种名为Synapse的新框架,它是一种神经符号方法,旨在从有限的演示中高效地学习偏好概念。Synapse将偏好表示为领域特定语言(DSL)中的神经符号程序,该语言在图像上操作,并利用视觉解析、大型语言模型和程序合成的新组合来学习代表个人偏好的程序。
- 其它亮点本文通过广泛的实验评估了Synapse,包括针对移动机器人和自动驾驶中与移动性相关的概念的用户案例研究。实验结果表明,Synapse明显优于现有的基线和自身的消融实验。此外,该项目提供了代码和其他细节,可以在项目网站https://amrl.cs.utexas.edu/synapse上找到。
- 最近的相关研究包括DeepPreference、Preference-Based Policy Learning、Preference-based Reinforcement Learning等。
沙发等你来抢
去评论
评论
沙发等你来抢