PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

简介

最近个性化文本到图像（T2I）模型的进展已经彻底改变了内容创作，使得非专业人士能够生成具有独特风格的惊人图像。虽然很有前途，但是通过文本添加逼真的动作到这些个性化图像中会带来重大挑战，包括保留独特风格、高保真度细节以及通过文本实现动作可控性等方面。在本文中，我们提出了PIA，一种个性化图像动画生成器，它在与条件图像对齐、通过文本实现动作可控性以及与各种个性化T2I模型兼容性方面表现出色，无需特定调整。为了实现这些目标，PIA基于一个经过良好训练的时间对齐层的基础T2I模型，允许将任何个性化T2I模型无缝转换为图像动画模型。PIA的一个关键组成部分是引入条件模块，它利用条件帧和帧间亲和力作为输入，在潜在空间中通过亲和力提示来传输外观信息，以实现个别帧合成。这种设计缓解了内部与外部相关的图像对齐方面的挑战，并允许更加专注于与动作相关的指导对齐。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在解决个性化T2I模型中添加真实运动时保留独特风格、高保真细节和实现文本控制运动方面的挑战。
关键思路

关键思路：PIA构建在一个经过良好训练的时间对齐层的基础T2I模型上，利用条件模块将条件帧和帧间亲和力作为输入，通过亲和性提示指导的外观信息传输到潜在空间中，实现个体帧合成的外观信息对齐，并允许更强调与运动相关的指导。
其它亮点

其他亮点：PIA具有与条件图像对齐、通过文本实现运动控制和与各种个性化T2I模型兼容等优点，实验结果表明PIA在运动控制、动作流畅性和可视质量等方面表现出色。论文提供了开源代码和数据集。
相关研究

相关研究：最近的相关研究包括：1）T2I模型；2）图像动画；3）基于条件的图像生成。

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

提问交流

提问交流