InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions

2024年02月05日
  • 简介
    我们介绍了 $\textit{InteractiveVideo}$,这是一个以用户为中心的视频生成框架。与传统的生成方法不同,传统方法基于用户提供的图像或文本进行操作,而我们的框架是为动态交互而设计的,允许用户通过各种直观的机制在整个生成过程中指导生成模型,例如文本和图像提示、绘画、拖放等。我们提出了一种协同多模态指令机制,旨在将用户的多模态指令无缝地集成到生成模型中,从而促进用户输入和生成过程之间的合作和响应式交互。这种方法通过精确和有效的用户指令,使生成结果得以迭代和细粒度的改进。通过 $\textit{InteractiveVideo}$,用户可以灵活地精细调整视频的关键方面。他们可以绘制参考图像、编辑语义、调整视频动作,直到满足他们的要求为止。代码、模型和演示可在 https://github.com/invictus717/InteractiveVideo 上获得。
  • 图表
  • 解决问题
    InteractiveVideo是一个用户中心的视频生成框架,试图解决什么问题?
  • 关键思路
    InteractiveVideo框架能够通过多种直观的机制,如文本和图像提示、绘画、拖放等,与用户进行动态交互,将用户的多模态指令无缝地集成到生成模型中,从而实现用户与生成过程的协作和响应式交互。
  • 其它亮点
    InteractiveVideo框架允许用户精细地调整视频的关键方面,如参考图像的绘画、语义的编辑和视频运动的调整,以满足用户的需求。框架的实验设计充分,使用了多个数据集,并提供了代码和模型。值得进一步研究的工作包括如何进一步提高生成质量和实现更复杂的视频生成任务。
  • 相关研究
    与InteractiveVideo相关的研究包括使用深度学习生成视频的方法,如Generative Adversarial Networks(GANs)、Variational Autoencoders(VAEs)等。也有一些研究探索了用户交互对生成模型的影响,如GANs的交互式生成和交互式视觉对话生成。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论