- 简介我们介绍了STAR,这是一种文本到图像的模型,采用了分层自回归范式。与VAR只能在一组固定的预定类别内进行类条件合成不同,我们的STAR通过三个关键设计实现了基于文本的开放式生成,以提高未见过的对象和概念组合的多样性和泛化性,我们引入了预训练的文本编码器来提取文本约束的表示,然后将其用作指导。为了改善生成图像与细粒度文本指导之间的交互,使结果更易控制,在每个尺度上都加入了额外的交叉注意力层。考虑到不同尺度之间的自然结构相关性,我们利用2D旋转位置编码(RoPE)并将其调整为规范化版本。这确保了在不同尺度的标记映射之间一致解释相对位置,并稳定了训练过程。广泛的实验表明,STAR在保真度、图像文本一致性和美学质量方面超越了现有的基准。我们的发现强调了自回归方法在高质量图像合成领域的潜力,为T2I领域提供了有前途的新方向,目前该领域主要由扩散方法主导。
- 图表
- 解决问题STAR模型旨在解决文本到图像生成中的开放集合问题,即生成未出现在预定义类别中的对象和概念的多样性和泛化性。
- 关键思路STAR模型采用分层自回归范式,引入预训练文本编码器提取文本约束的表示,并在每个尺度上增加交叉注意力层,以改进生成图像和文本指导之间的交互,同时利用2D RoPE来保证不同尺度之间的相对位置的一致性和稳定性。
- 其它亮点STAR模型在保真度、图像文本一致性和美学质量等方面超过了现有基准。实验结果表明,自回归方法在高质量图像合成领域具有潜在的应用前景。
- 与该论文相关的研究包括VAR模型、扩散模型等。
沙发等你来抢
去评论
评论
沙发等你来抢