The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation

2024年07月17日
  • 简介
    尽管文本到图像生成技术最近取得了进展,但由于训练数据的多样性和复杂性受到限制,处理复杂和富有想象力的提示仍存在局限性。本研究探讨了扩散模型如何从需要艺术创造力或专业知识的提示中生成图像。我们介绍了一个新颖的评估框架——现实-幻想基准(RFBench),它融合了现实和幻想情境。为了应对这些挑战,我们提出了现实-幻想网络(RFNet),这是一种无需训练的方法,将扩散模型与LLM集成。广泛的人类评估和基于GPT的组合评估表明,我们的方法优于现有的最先进方法。我们的代码和数据集可在https://leo81005.github.io/Reality-and-Fantasy/上获得。
  • 图表
  • 解决问题
    本论文旨在探索如何使用扩散模型生成需要艺术创造力或专业知识的图像,以解决当前文本到图像生成中受限于训练数据多样性和复杂性的问题。为此,论文提出了一个新的评估框架Realistic-Fantasy Benchmark (RFBench),并结合LLMs提出了一个无需训练的方法Realistic-Fantasy Network (RFNet)。
  • 关键思路
    RFNet是一种无需训练的方法,将扩散模型和LLMs结合起来,能够生成需要艺术创造力或专业知识的图像。
  • 其它亮点
    本论文提出了一个新的评估框架RFBench,用于评估生成图像的真实感和想象力。论文使用了广泛的人类评估和基于GPT的组成性评估,证明了RFNet方法在生成图像方面的优越性。此外,论文还提供了代码和数据集。
  • 相关研究
    最近的相关研究包括: 1. Generative Adversarial Networks (GANs)的应用 2. 基于变分自编码器(VAEs)的图像生成 3. 基于扩散模型的图像生成
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论