- 简介我们解决的问题是合成多视角光学幻觉:即在转换过程中(如翻转或旋转)外观发生变化的图像。我们提出了一种简单的零样本方法,从现成的文本到图像扩散模型中获取这些幻觉。在逆扩散过程中,我们估计了嘈杂图像的不同视角的噪声。然后我们将这些噪声估计组合在一起并去噪图像。理论分析表明,该方法精确适用于可以写成正交变换的视角,其中置换是其中的一个子集。这引出了视觉字谜的概念——一种在像素重新排列的某些变换下会改变外观的图像。这包括旋转和翻转,但也包括更奇特的像素排列,如拼图排列。我们的方法也自然地扩展到具有两个以上视角的幻觉。我们提供定性和定量结果,证明了我们方法的有效性和灵活性。请参见我们的项目网页以获取其他可视化和结果:https://dangeng.github.io/visual_anagrams/。
- 图表
- 解决问题本论文旨在解决合成多视角光学幻觉的问题,即在变换(如翻转或旋转)时改变外观的图像。
- 关键思路通过从现成的文本到图像扩散模型中获取这些幻觉的简单、零样本方法。在反向扩散过程中,估计来自嘈杂图像的不同视图的噪声。然后将这些噪声估计组合在一起并对图像进行去噪。
- 其它亮点该方法适用于可以写成正交变换的视图,其中排列是其中的一个子集。这导致了视觉变位词的想法——一种在某些像素重新排列下改变外观的图像。该方法还自然地扩展到具有两个以上视图的幻觉。论文提供了定性和定量结果,证明了该方法的有效性和灵活性。
- 最近的相关研究包括“Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild”和“Learning to Reconstruct Shapes from Unseen Classes”。
沙发等你来抢
去评论
评论
沙发等你来抢