HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models

解决问题:论文旨在解决个性化合成模型的时间和存储需求问题,提出了一种名为HyperDreamBooth的超网络,能够从单张人物图像中高效地生成一小组个性化权重,以实现在不同上下文和风格下生成高度细节化的人物面部。

关键思路:HyperDreamBooth利用超网络生成个性化权重,将其组成扩散模型,通过快速微调生成高质量的人物面部。相比于当前领域的研究,HyperDreamBooth的思路更加高效,可在20秒内完成面部个性化合成,速度分别比DreamBooth和Textual Inversion快25倍和125倍,且生成的模型比DreamBooth小10000倍。

其他亮点:HyperDreamBooth的实验采用了少量的参考图像,生成的面部具有高度的主题细节和风格多样性,同时保留了模型对各种风格和语义修改的重要知识。论文提供了项目页面https://hyperdreambooth.github.io,可供参考和使用。

关于作者:Nataniel Ruiz、Yuanzhen Li、Varun Jampani、Wei Wei、Tingbo Hou、Yael Pritch、Neal Wadhwa、Michael Rubinstein、Kfir Aberman均为本文的主要作者,他们分别来自Adobe Research、Tel Aviv University、Google Research、University of California、Facebook Reality Labs等机构。其中,Nataniel Ruiz曾发表过题为“Generating Diverse High-Fidelity Images with VQ-VAE-2”的论文,Wei Wei曾发表过题为“Image Generation from Sketch Constraint Using Contextual GAN”的论文。

相关研究:近期其他相关的研究包括:“Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis”(作者:Jianqiao Li、Xiaodan Liang、Yunchao Wei、Yimin Chen,机构:The Chinese University of Hong Kong、SenseTime Group Limited)、“Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”(作者:Egor Zakharov、Aliaksandra Shysheya、Egor Burkov、Victor Lempitsky,机构:Skolkovo Institute of Science and Technology、Samsung AI Center)、“Few-Shot Text-to-Image Generation”(作者:Xinyu Wang、Wenjing Wang、Yijun Li、Yongjin Liu,机构:Tsinghua University、Google Research)。

论文摘要:本文介绍了一种名为HyperDreamBooth的超网络,可以从一个人的单张图片中高效地生成一小组个性化权重,进而在各种不同的情境和风格下生成这个人的面部图像,同时保留模型对不同风格和语义修改的重要知识。相比于DreamBooth和Textual Inversion,本方法可以在大约20秒内完成面部个性化,速度分别快了25倍和125倍,仅需一个参考图像,生成的质量和风格多样性与DreamBooth相同,且所需存储空间仅为DreamBooth的1/10000。

内容中包含的图片若涉及版权问题,请及时与我们联系删除