- 简介持续的后训练可以使单一的文本到图像扩散模型适应新任务,而无需承担单独模型的成本,但简单的后训练会导致预训练知识的遗忘,并削弱零样本组合能力。我们观察到,由于缺乏标准化的评估协议,这阻碍了与持续后训练相关的研究进展。为了解决这一问题,我们引入了 T2I-ConBench,这是一个针对文本到图像模型持续后训练的统一基准测试平台。T2I-ConBench 专注于两个实际场景:项目定制和领域增强,并从四个维度进行分析:(1)通用性的保持,(2)目标任务性能,(3)灾难性遗忘,以及(4)跨任务泛化能力。它结合了自动化指标、人类偏好建模以及视觉-语言问答,以进行全面评估。我们在三个现实任务序列中对十种具有代表性的方法进行了基准测试,发现没有一种方法能在所有方面表现出色。即使联合“先知”(oracle)训练也无法在每个任务上取得成功,而跨任务泛化仍然是一个未解决的问题。我们公开了所有数据集、代码和评估工具,以加速文本到图像模型持续后训练领域的研究进展。
-
- 图表
- 解决问题论文试图解决的问题是如何在不遗忘预训练知识的情况下,通过持续微调(continual post-training)使单个文本到图像扩散模型适应新任务。这是一个重要但尚未完全解决的问题,尤其是在零样本泛化和跨任务泛化方面。
- 关键思路论文提出了一种名为T2I-ConBench的统一基准测试框架,用于评估文本到图像模型的持续微调性能。该框架专注于两个实际场景:物品定制和领域增强,并从四个维度进行分析:通用性保留、目标任务性能、灾难性遗忘和跨任务泛化。相比现有研究,论文首次系统地定义了持续微调的评估标准,并结合了自动化指标、人类偏好建模和视觉语言问答技术进行全面评估。
- 其它亮点论文设计了三个现实任务序列来对比十种代表性方法,并发现没有一种方法能在所有维度上表现最佳。此外,即使联合‘Oracle’训练也无法完全解决所有问题,表明跨任务泛化仍是一个开放性挑战。论文还开源了所有数据集、代码和评估工具,为未来研究提供了强大的支持。值得深入研究的方向包括改进持续学习算法以减少灾难性遗忘,以及探索更高效的跨任务泛化策略。
- 近期相关研究包括《Fine-Tuning Diffusion Models Without Forgetting》探讨了如何在微调过程中保持预训练知识,《Zero-Shot Text-to-Image Generation with Cross-Attention Control》研究了零样本生成中的注意力机制控制,《Continual Learning in Vision-Language Models》讨论了视觉语言模型中的持续学习问题。此外,《Compositional Generalization in Text-to-Image Synthesis》也关注了文本到图像合成中的组合泛化能力。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流