- 简介传统的多标签识别方法通常关注标签的置信度,经常忽视与人类偏好一致的偏序关系的重要作用。为了解决这些问题,我们引入了一种新的多模态标签相关性排序方法,名为带有近端策略优化的标签相关性排序(LR\textsuperscript{2}PPO),它能有效地区分标签之间的偏序关系。LR\textsuperscript{2}PPO首先利用目标领域中的偏序对来训练奖励模型,旨在捕捉与特定情景内在相关的人类偏好。此外,我们精心设计了状态表示和针对排序任务的策略损失,使LR\textsuperscript{2}PPO能够提高标签相关性排序模型的性能,并大大减少了转移到新场景时对偏序注释的要求。为了协助评估我们的方法和类似方法,我们进一步提出了一种新的基准数据集LRMovieNet,其中包括多模态标签及其对应的偏序数据。广泛的实验表明,我们的LR\textsuperscript{2}PPO算法实现了最先进的性能,证明了它在解决多模态标签相关性排序问题方面的有效性。代码和提出的LRMovieNet数据集可在\url{https://github.com/ChazzyGordon/LR2PPO}上公开获取。
- 图表
- 解决问题解决问题:论文旨在解决多标签识别方法通常忽略与人类偏好一致的偏序关系的问题,提出了一种基于接近策略优化的标签相关性排序方法(LR2PPO),以有效区分标签之间的偏序关系。
- 关键思路关键思路:首先,利用目标领域中的偏序对训练奖励模型,以捕捉特定场景内的人类偏好。其次,设计了适用于排序任务的状态表示和策略损失,从而提高了标签相关性排序模型的性能,并大大降低了对偏序注释在新场景中的转移需求。
- 其它亮点其他亮点:论文提出了一种新的多模态标签相关性排序方法,并提出了一个新的基准数据集LRMovieNet,该数据集包含多模态标签及其相应的偏序数据。实验表明,LR2PPO算法在多标签相关性排序问题上取得了最先进的性能,并证明了其在解决多模态标签相关性排序问题上的有效性。此外,作者还公开了代码和数据集,方便其他研究者使用和参考。
- 相关研究:最近的相关研究包括《Deep Learning for Multi-label Classification: A Survey》、《Multi-label Classification with Deep Learning: A Comparative Review》、《A Survey on Multi-Label Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢