LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation

向作者提问

NEW

简介

文中提到，文本到图像模型的革命性进展已经为复杂内容创作开启了新的维度，例如文本条件下的图像编辑，使我们能够根据文本指导编辑传达高度复杂的视觉概念的多样化图像。尽管很有前途，但现有的方法集中于基于纹理或非刚性的视觉操作，这些方法在没有微调的情况下难以产生细粒度的平滑文本条件下的图像变形动画，即由于它们高度非结构化的潜在空间。本文介绍了一种无需微调的LLM驱动的注意力控制框架，由LLM规划的渐进过程封装，Prompt-Aware编辑，StablE动画生成，简称LASER。LASER使用大型语言模型（LLM）将粗略的描述细化为详细的提示，引导预训练的文本到图像模型进行后续图像生成。我们操作模型的空间特征和自我关注机制，以保持动画完整性并直接从文本提示中实现无缝变形，消除了需要额外微调或注释的需要。我们对空间特征和自我关注的细致控制确保了图像的结构一致性。本文提出了一种新颖的框架，将LLM与文本到图像模型集成，从单个文本输入创建高质量动画。我们还提出了一个文本条件下的图像到动画基准来验证LASER的有效性和效率。广泛的实验表明，LASER在动画生成方面产生了令人印象深刻、一致且高效的结果，定位为高级数字内容创作的强大工具。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

这篇论文旨在解决文本条件下图像编辑和动画生成的问题，特别是在不需要进行微调或注释的情况下实现细粒度动画生成。
关键思路

该论文提出了一种基于注意力控制的框架LASER，利用大型语言模型（LLM）对粗略描述进行细化，指导预训练的文本到图像模型进行图像生成。该方法通过操纵模型的空间特征和自注意机制来确保动画的结构一致性和无缝转换。
其它亮点

该论文提出了一个新的框架LASER，它能够从单个文本输入生成高质量、一致且高效的动画，而无需进行微调或注释。该论文还提出了一个文本条件下的图像到动画基准测试，并在多个数据集上进行了广泛的实验。该方法的实验结果表明，LASER能够产生令人印象深刻的动画生成结果。
相关研究

该领域中的相关研究包括：1）文本到图像生成模型，如DM-GAN、CLIP-guided等；2）图像编辑和动画生成模型，如Flow-edge-guided、Glow-based等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问