新智元报道
新智元报道
【新智元导读】扩散Transformer(DiT)重磅升级——可扩展插值Transformer(SiT)!虽然核心架构没变,但在质量、处理速度和使用灵活性方面都实现了显著提升。



流与扩散
近年来,一种全新的生成模型逐渐成为焦点,其核心思想是将纯粹的噪声ε转化为具有特定分布p(x)的数据x*。 目前,基于扩散的模型是这种转换最常用的框架,而随机插值和基于流的模型则是这个领域的新成员。 新模型将αt和σt的值限制在时间区间[0,1]内,且α0=σ1=1,α1=σ0=0。如此一来,xt就可以精确地在x*和ε之间插值。 这种方法的优点是,让插值函数插值函数的选择更加灵活,因为它们不再受制于前向SDE。 此外,这些模型还使用了更简单的概率流ODE进行推理: 
其中,速度v(Xt ,t)是通过流量匹配目标进行估计的: 
简单来说,这可以被看作是预测一个粒子在t时刻从某个ε开始移动的速度。 为了更好地理解这些模型,团队将关键组成部分总结在了下表中: 
研究证明,在相同的αt和σt条件下,扩散和基于流的方法实际上遵循着相同的时间发展过程。也就是说,无论是基于流的ODE还是基于扩散的ODE和SDE,其对应的pt(x)都是一致的。 论文中,团队不仅揭示了这些模型组件之间的数学等价性,还探讨了它们对模型性能的影响。 并更进一步地解决了其中的「?」,即在缺少明确前向SDE的情况下,基于流的方法也可以通过反向时间SDE进行有效采样。 可扩展插值Tranformer



可扩展插值Tranformer
从上表可以看出,设计这些模型时需要考虑以下四个方面:
- 时间空间(Timespace):离散或连续的时间间隔;
- 模型预测(Model Prediction):Ls或Lv的目标;
- 插值器(Interpolant):αt和σt的选择;
时间空间

模型预测





插值器



采样器





无分类器引导



内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢