- 简介Pareto前沿学习是一种技术,它在神经网络中引入了偏好向量以近似Pareto前沿。先前的Pareto前沿学习方法已经证明在近似简单的Pareto前沿方面表现出了高性能。这些方法通常从固定的狄利克雷分布中采样偏好向量。然而,没有固定的采样分布可以适应不同的Pareto前沿。高效地采样偏好向量并准确地估计Pareto前沿是一个挑战。为了解决这个挑战,我们提出了一个数据驱动的Pareto前沿学习偏好向量采样框架。我们利用目标函数的后验信息来灵活调整采样分布的参数。通过这种方式,所提出的方法可以从Pareto前沿位置高概率地采样偏好向量。此外,我们将偏好向量的分布设计为狄利克雷分布的混合物,以提高模型在不连通的Pareto前沿中的性能。广泛的实验验证了所提出的方法相对于最先进的算法的优越性。
-
- 图表
- 解决问题提出一种数据驱动的偏好向量采样框架,以解决 Pareto 前沿学习中的采样问题。
- 关键思路利用目标函数的后验信息来灵活地调整采样分布的参数,从而高概率地从 Pareto 前沿的位置采样偏好向量。同时,设计偏好向量的分布为 Dirichlet 分布的混合分布,以提高在不连通 Pareto 前沿中的性能。
- 其它亮点通过实验验证了该方法相对于现有算法的优越性。
- 与 Pareto 前沿学习相关的研究包括“Multi-Objective Reinforcement Learning: A Comprehensive Overview”、“Deep Multi-Task Learning with Shared Memory”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流