WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

简介

几种文本到视频扩散模型已经展示出合成高质量视频内容的可称赞能力。然而，保持时间一致性和确保生成序列中的动作平滑仍然是一个巨大的挑战。在本文中，我们提出了一种创新的视频生成AI代理，利用Sora启发的多模态学习的力量，基于文本提示和相应的图像构建熟练的世界模型框架。该框架包括两个部分：提示增强器和完整视频翻译。第一部分利用ChatGPT的能力，精心提炼和主动构建每个后续步骤的精确提示，从而保证提示沟通的最高准确性和遵循模型操作的准确执行。第二部分采用与现有先进扩散技术兼容的方法，在视频结束时广泛生成和精细化关键帧。然后，我们可以熟练地利用前导和尾随关键帧的力量，制作具有增强时间一致性和动作平滑性的视频。实验结果证实，我们的方法在从文本和图像输入构建世界模型方面具有比其他方法更强的有效性和新颖性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决文本到视频生成中的时间一致性和动作流畅性问题。
关键思路

论文提出了一种基于Sora启发的多模态学习的视频生成AI代理，通过精确的提示和图像构建技术构建技能世界模型框架，并使用现有的先进扩散技术来生成和完善视频序列。
其它亮点

论文使用了ChatGPT来生成精确的提示，使用先进扩散技术来生成和完善视频序列，并在实验中展示了其效果和创新性。
相关研究

在文本到视频生成领域，最近的相关研究包括：1.《Generative Adversarial Text-to-Image Synthesis》；2.《Towards High-Fidelity Face Frontalization》；3.《Video Generation from Text》等。

WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

提问交流

提问交流