APEX: Learning Adaptive Priorities for Multi-Objective Alignment in Vision-Language Generation

向作者提问

NEW

简介

在文本到图像生成中，多目标对齐通常通过静态线性标量化来实现，但固定权重在面对异质性奖励时往往表现不佳，容易导致优化失衡：模型会过度拟合高方差、高响应性的目标（例如光学字符识别，OCR），而忽视感知类目标的优化。我们识别出两种机制性原因：一是“方差劫持”，即奖励值的离散程度差异会引发隐式的权重重分配，从而主导归一化的训练信号；二是梯度冲突，即相互竞争的目标会产生相反的参数更新方向，导致类似跷跷板的振荡现象。为此，我们提出了APEX（基于自适应优先级的高效多目标对齐方法），该方法采用双阶段自适应归一化来稳定异质性奖励，并通过P³自适应优先级机制动态调度各目标，该机制综合考虑学习潜力、冲突惩罚和进展需求。在Stable Diffusion 3.5上的实验表明，APEX能够在四个异质目标间实现更优的帕累托权衡，各项指标均衡提升：PickScore提高1.31分，DeQA提高0.35分，美学评分提升0.53分，同时保持具有竞争力的OCR准确率，有效缓解了多目标对齐过程中的不稳定性问题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

多目标对齐在文本到图像生成中通常采用静态线性标量化方法，但由于不同目标（如OCR、美学质量等）的奖励异质性，固定权重容易导致优化失衡。具体表现为模型过度拟合高方差、高响应性的目标（如文字识别），而忽视感知类目标（如美观度、图像质量）。该问题源于奖励分布差异和梯度冲突，现有方法难以实现帕累托最优权衡。这是一个实际存在但尚未被充分机制化分析的问题。
关键思路

提出APEX框架，通过双阶段自适应归一化（Dual-Stage Adaptive Normalization）稳定异质奖励信号，防止方差劫持；并设计P^3自适应优先级调度机制（结合学习潜力、冲突惩罚与进展需求）动态调整各目标的优化权重。相比传统固定加权方法，APEX从机制层面应对梯度冲突与隐式重加权问题，实现了更均衡、稳定的多目标优化路径。
其它亮点

在Stable Diffusion 3.5上验证了四类异质目标（OCR、PickScore、DeQA、Aesthetics）的联合优化效果，取得帕累托前沿提升：PickScore +1.31，DeQA +0.35，Aesthetics +0.53，同时保持有竞争力的OCR性能。实验设计严谨，包含消融研究与动态权重可视化；论文揭示了‘方差劫持’与‘梯度冲突’两大机制，为后续研究提供理论洞见。代码是否开源未明确提及，但方法具可复现性，未来可拓展至更多模态或多任务场景。
相关研究

1. Aligning Text-to-Image Models using Human Preferences 2. Multi-Objective Reinforcement Learning for Guided Image Generation 3. Preference Learning with Uncertainty-Aware Feedback for Text-to-Image Synthesis 4. Dynamic Loss Weighting in Multi-Task Learning: A Survey 5. Gradient Surgery for Multi-Task Optimization in Vision-Language Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问