- 简介在生成模型中,两种范式在各种应用中引起了关注:基于下一组预测的掩码生成模型和基于下一次噪声预测的非自回归模型,例如扩散模型。在这项工作中,我们提出使用离散状态模型将它们连接起来,并探索它们在视觉领域的可扩展性。首先,我们在一个统一的设计空间中对两种类型模型进行逐步分析,包括时间步独立性、噪声调度、温度、引导强度等,以可扩展的方式进行。其次,我们将典型的判别任务,例如图像分割,重新定义为从离散状态模型中的[MASK]标记中解掩的过程。这使我们能够执行各种采样过程,包括仅通过一次训练建模联合分布的灵活条件采样。所有上述探索导致了我们的框架——离散插值,该框架使我们在各种基准测试中,如ImageNet256、MS COCO和视频数据集FaceForensics,达到了与之前基于离散状态的方法相当或最先进的性能。总之,通过利用离散状态模型中的[MASK],我们可以桥接掩码生成模型和非自回归扩散模型,以及生成任务和判别任务。
- 图表
- 解决问题该论文尝试通过离散状态模型连接掩码生成模型和非自回归扩散模型,并探索其在视觉领域的可扩展性。这是一个新颖的问题,旨在弥合两类生成模型之间的差距。
- 关键思路论文的关键思路是通过引入离散状态模型,将掩码生成模型和非自回归扩散模型统一在一个设计空间内,并通过一系列参数(如时间步独立性、噪声调度、温度和引导强度等)进行系统分析。此外,论文还将典型的判别任务(如图像分割)重新定义为从[MASK]标记的解码过程,从而实现灵活的条件采样。
- 其它亮点论文提出了一个名为Discrete Interpolants的框架,在多个基准测试中取得了最先进的或有竞争力的性能,包括ImageNet256、MS COCO和FaceForensics视频数据集。实验设计涵盖了广泛的参数设置和任务类型,验证了方法的有效性和灵活性。此外,该框架仅需一次训练即可建模联合分布,简化了模型的训练和应用过程。论文提供了开源代码,方便其他研究人员复现和进一步研究。
- 近期在这个领域中,相关研究包括:1.《Masked Generative Models for Discrete Data》探讨了掩码生成模型在离散数据上的应用;2.《Non-Autoregressive Text Generation with Discrete Diffusion Models》研究了非自回归扩散模型在文本生成中的应用;3.《Unified Generative and Discriminative Modeling with Discrete Tokens》提出了类似的联合建模方法,但侧重于不同的任务类型。
沙发等你来抢
去评论
评论
沙发等你来抢