Data-Driven Preference Sampling for Pareto Front Learning

2024年04月12日
  • 简介
    Pareto前沿学习是一种技术,它在神经网络中引入了偏好向量以近似Pareto前沿。先前的Pareto前沿学习方法已经证明在近似简单的Pareto前沿方面表现出了高性能。这些方法通常从固定的狄利克雷分布中采样偏好向量。然而,没有固定的采样分布可以适应不同的Pareto前沿。高效地采样偏好向量并准确地估计Pareto前沿是一个挑战。为了解决这个挑战,我们提出了一个数据驱动的Pareto前沿学习偏好向量采样框架。我们利用目标函数的后验信息来灵活调整采样分布的参数。通过这种方式,所提出的方法可以从Pareto前沿位置高概率地采样偏好向量。此外,我们将偏好向量的分布设计为狄利克雷分布的混合物,以提高模型在不连通的Pareto前沿中的性能。广泛的实验验证了所提出的方法相对于最先进的算法的优越性。
  • 作者讲解
  • 图表
  • 解决问题
    提出一种数据驱动的偏好向量采样框架,以解决 Pareto 前沿学习中的采样问题。
  • 关键思路
    利用目标函数的后验信息来灵活地调整采样分布的参数,从而高概率地从 Pareto 前沿的位置采样偏好向量。同时,设计偏好向量的分布为 Dirichlet 分布的混合分布,以提高在不连通 Pareto 前沿中的性能。
  • 其它亮点
    通过实验验证了该方法相对于现有算法的优越性。
  • 相关研究
    与 Pareto 前沿学习相关的研究包括“Multi-Objective Reinforcement Learning: A Comprehensive Overview”、“Deep Multi-Task Learning with Shared Memory”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问