Hand1000: Generating Realistic Hands from Text with Only 1,000 Images

2024年08月28日
  • 简介
    最近几年,文本转图像生成模型取得了显著进展,旨在从文本描述中生成逼真的图像。然而,这些模型经常难以生成人手的解剖学准确的表现。生成的图像经常存在问题,例如手指数量不正确、手指不自然地扭曲或交织、或者手部模糊不清。这些问题源于手部结构的固有复杂性和将文本描述与精确的手部视觉描绘对齐的困难。为了解决这些挑战,我们提出了一种名为Hand1000的新方法,它可以使用仅1000个训练样本生成具有目标手势的逼真手部图像。Hand1000的训练分为三个阶段,第一阶段旨在通过使用预训练的手势识别模型提取手势表示来增强模型对手部解剖学的理解。第二阶段通过结合提取的手势表示进一步优化文本嵌入,以改善文本描述与生成的手部图像之间的对齐。第三阶段利用优化的嵌入来微调稳定扩散模型生成逼真的手部图像。此外,我们构建了第一个专门设计用于文本到手部图像生成的公开可用数据集。基于现有的手势识别数据集,我们采用先进的图像字幕模型和LLaMA3生成详细手势信息丰富的高质量文本描述。广泛的实验表明,Hand1000在生成解剖学正确的手部图像方面明显优于现有模型,同时忠实地表示文本中的其他细节,例如面部、服装和颜色。
  • 图表
  • 解决问题
    该论文旨在解决文本到手部图像生成中手部结构复杂,难以生成解剖学准确的手部图像的问题。
  • 关键思路
    论文提出了一种名为Hand1000的新方法,通过三个阶段的训练,使用仅1000个训练样本就能生成具有目标手势的逼真手部图像,其中第一阶段使用预训练的手势识别模型提取手势表示,第二阶段进一步优化文本嵌入,以改善文本描述与生成的手部图像之间的对齐,第三阶段利用优化的嵌入对稳定扩散模型进行微调,生成逼真的手部图像。
  • 其它亮点
    论文构建了第一个专门为文本到手部图像生成设计的公开数据集,采用先进的图像字幕模型和LLaMA3生成详细的手势信息,实验结果表明,Hand1000在生成解剖学正确的手部图像方面明显优于现有模型,同时忠实地表示文本中的其他细节,如面部、服装和颜色。
  • 相关研究
    近年来,文本到图像生成领域取得了显著进展,有许多相关的研究,如《Generative Adversarial Text-to-Image Synthesis》、《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论