- 简介本文提出了一种全新的图像生成范式,通过基于集合的标记化(tokenization)和分布建模实现。与传统方法将图像序列化为具有统一压缩比的固定位置潜在码不同,我们引入了一种无序标记集合表示法,能够根据区域语义复杂度动态分配编码容量。这种 TokenSet 提高了全局上下文聚合能力,并增强了对局部扰动的鲁棒性。为了解决离散集合建模的关键挑战,我们设计了一种双重转换机制,可以双射地将集合转换为具有求和约束的固定长度整数序列。此外,我们提出了固定和离散扩散(Fixed-Sum Discrete Diffusion)框架——这是首个能够同时处理离散值、固定序列长度和求和不变性的框架,从而实现了有效的集合分布建模。实验表明,我们的方法在语义感知表示和生成质量方面具有优越性。我们的创新涵盖了新颖的表示和建模策略,推动了视觉生成技术超越传统的顺序标记范式。我们的代码和模型已在以下链接公开:https://github.com/Gengzigang/TokenSet。
- 图表
- 解决问题该论文试图解决图像生成中如何更高效地表示和建模图像的问题。传统方法通常将图像序列化为固定位置的潜在代码,这可能导致编码能力分配不均以及对局部扰动的敏感性。这是一个在图像生成领域内持续优化的问题,但通过引入基于集合的表示方法,提出了新的解决方向。
- 关键思路论文提出了一种名为TokenSet的新范式,使用无序令牌集表示来动态分配编码容量,以适应区域语义复杂度。此外,为了应对离散集合建模的挑战,设计了双变换机制,并提出了Fixed-Sum Discrete Diffusion框架,首次实现了对离散值、固定序列长度和求和不变性的联合处理。这种思路突破了传统序列化方法的限制,增强了全局上下文聚合能力和鲁棒性。
- 其它亮点实验表明,该方法在语义感知表示和生成质量方面表现优异。研究团队还开源了代码和模型(https://github.com/Gengzigang/TokenSet),为后续研究提供了便利。未来值得深入研究的方向包括:进一步探索TokenSet在其他视觉任务中的应用潜力,以及优化Fixed-Sum Discrete Diffusion框架以支持更大规模的数据集。
- 最近的相关研究包括《DALL·E: Creating Images from Text》和《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models》,这些工作主要关注文本到图像生成及扩散模型的应用。此外,《Perceiver IO: A General Architecture for Structured Inputs & Outputs》也探讨了灵活的输入输出结构建模方法,与本文提出的集合表示思想有异曲同工之处。
沙发等你来抢
去评论
评论
沙发等你来抢