APEX: Learning Adaptive Priorities for Multi-Objective Alignment in Vision-Language Generation

2026年01月10日
  • 简介
    在文本到图像生成中,多目标对齐通常通过静态线性标量化来实现,但固定权重在面对异质性奖励时往往表现不佳,容易导致优化失衡:模型会过度拟合高方差、高响应性的目标(例如光学字符识别,OCR),而忽视感知类目标的优化。我们识别出两种机制性原因:一是“方差劫持”,即奖励值的离散程度差异会引发隐式的权重重分配,从而主导归一化的训练信号;二是梯度冲突,即相互竞争的目标会产生相反的参数更新方向,导致类似跷跷板的振荡现象。为此,我们提出了APEX(基于自适应优先级的高效多目标对齐方法),该方法采用双阶段自适应归一化来稳定异质性奖励,并通过P³自适应优先级机制动态调度各目标,该机制综合考虑学习潜力、冲突惩罚和进展需求。在Stable Diffusion 3.5上的实验表明,APEX能够在四个异质目标间实现更优的帕累托权衡,各项指标均衡提升:PickScore提高1.31分,DeQA提高0.35分,美学评分提升0.53分,同时保持具有竞争力的OCR准确率,有效缓解了多目标对齐过程中的不稳定性问题。
  • 作者讲解
  • 图表
  • 解决问题
    多目标对齐在文本到图像生成中通常采用静态线性标量化方法,但由于不同目标(如OCR、美学质量等)的奖励异质性,固定权重容易导致优化失衡。具体表现为模型过度拟合高方差、高响应性的目标(如文字识别),而忽视感知类目标(如美观度、图像质量)。该问题源于奖励分布差异和梯度冲突,现有方法难以实现帕累托最优权衡。这是一个实际存在但尚未被充分机制化分析的问题。
  • 关键思路
    提出APEX框架,通过双阶段自适应归一化(Dual-Stage Adaptive Normalization)稳定异质奖励信号,防止方差劫持;并设计P^3自适应优先级调度机制(结合学习潜力、冲突惩罚与进展需求)动态调整各目标的优化权重。相比传统固定加权方法,APEX从机制层面应对梯度冲突与隐式重加权问题,实现了更均衡、稳定的多目标优化路径。
  • 其它亮点
    在Stable Diffusion 3.5上验证了四类异质目标(OCR、PickScore、DeQA、Aesthetics)的联合优化效果,取得帕累托前沿提升:PickScore +1.31,DeQA +0.35,Aesthetics +0.53,同时保持有竞争力的OCR性能。实验设计严谨,包含消融研究与动态权重可视化;论文揭示了‘方差劫持’与‘梯度冲突’两大机制,为后续研究提供理论洞见。代码是否开源未明确提及,但方法具可复现性,未来可拓展至更多模态或多任务场景。
  • 相关研究
    1. Aligning Text-to-Image Models using Human Preferences 2. Multi-Objective Reinforcement Learning for Guided Image Generation 3. Preference Learning with Uncertainty-Aware Feedback for Text-to-Image Synthesis 4. Dynamic Loss Weighting in Multi-Task Learning: A Survey 5. Gradient Surgery for Multi-Task Optimization in Vision-Language Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问