Network Bending of Diffusion Models for Audio-Visual Generation

2024年06月28日
  • 简介
    本文介绍了创作音乐可视化的工具的首要步骤,该工具使用预训练的生成式机器学习模型。首先,我们研究了网络弯曲的应用,即在生成式网络层内应用变换的过程,通过使用各种逐点、张量和形态学运算符来生成图像扩散模型。我们确定了许多不同运算符产生的视觉效果,其中包括一些难以用标准图像编辑工具重新创建的效果。我们发现,这个过程允许对图像生成进行连续、细粒度的控制,这对于创意应用非常有帮助。接下来,我们使用稳定扩散生成音乐反应视频,通过将音频特征作为参数传递给网络弯曲运算符。最后,我们评论了某些变换,这些变换可以彻底改变图像,并探讨了基于这些变换学习稳定扩散的潜在空间的可能性。
  • 图表
  • 解决问题
    本论文旨在创建一个工具,使用预训练的生成式机器学习模型,使艺术家能够创建音乐可视化。具体而言,论文探讨了在生成网络的层内应用变换的过程,以及如何使用音频特征作为参数来生成音乐反应视频。
  • 关键思路
    论文的关键思路是使用网络弯曲技术来实现对图像生成扩散模型的变换,以创建各种视觉效果。此外,使用音频特征作为参数,可以生成音乐反应视频。
  • 其它亮点
    论文使用了点、张量和形态学运算符,实现了对图像生成扩散模型的变换,可以连续、精细地控制图像生成,有利于创意应用。此外,使用音频特征作为参数,可以生成音乐反应视频。论文还探讨了一些变换,可以从根本上改变图像,并且可以通过这些变换了解稳定扩散的潜在空间。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,标题为“使用深度学习生成音乐可视化”的论文探讨了使用深度学习生成音乐可视化的方法。另一个标题为“使用生成对抗网络生成音乐可视化”的论文则探讨了使用生成对抗网络生成音乐可视化的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论