Data-Driven Preference Sampling for Pareto Front Learning

简介

Pareto前沿学习是一种技术，它在神经网络中引入了偏好向量以近似Pareto前沿。先前的Pareto前沿学习方法已经证明在近似简单的Pareto前沿方面表现出了高性能。这些方法通常从固定的狄利克雷分布中采样偏好向量。然而，没有固定的采样分布可以适应不同的Pareto前沿。高效地采样偏好向量并准确地估计Pareto前沿是一个挑战。为了解决这个挑战，我们提出了一个数据驱动的Pareto前沿学习偏好向量采样框架。我们利用目标函数的后验信息来灵活调整采样分布的参数。通过这种方式，所提出的方法可以从Pareto前沿位置高概率地采样偏好向量。此外，我们将偏好向量的分布设计为狄利克雷分布的混合物，以提高模型在不连通的Pareto前沿中的性能。广泛的实验验证了所提出的方法相对于最先进的算法的优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种数据驱动的偏好向量采样框架，以解决 Pareto 前沿学习中的采样问题。
关键思路

利用目标函数的后验信息来灵活地调整采样分布的参数，从而高概率地从 Pareto 前沿的位置采样偏好向量。同时，设计偏好向量的分布为 Dirichlet 分布的混合分布，以提高在不连通 Pareto 前沿中的性能。
其它亮点

通过实验验证了该方法相对于现有算法的优越性。
相关研究

与 Pareto 前沿学习相关的研究包括“Multi-Objective Reinforcement Learning: A Comprehensive Overview”、“Deep Multi-Task Learning with Shared Memory”。

Data-Driven Preference Sampling for Pareto Front Learning

提问交流

提问交流