Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

2024年08月19日
  • 简介
    传统的动画生成方法依赖于使用人工标注数据来训练生成模型,这需要一个复杂的多阶段流程,需要大量的人力成本和高昂的训练成本。由于提示计划有限,这些方法通常会产生简短、信息贫乏和上下文不连贯的动画。为了克服这些限制并自动化动画制作过程,我们首创引入大型多模态模型(LMMs)作为核心处理器,构建了一个自主动画制作代理,名为Anim-Director。该代理主要利用LMMs和生成AI工具的先进理解和推理能力,从简洁的叙述或简单的说明中创建动画视频。具体而言,它分为三个主要阶段:首先,Anim-Director从用户输入生成一个连贯的故事情节,然后生成一个详细的导演剧本,包括角色资料和内外部描述,以及上下文连贯的场景描述,包括出现的角色、内外部和场景事件。其次,我们使用LMMs和图像生成工具来生成设置和场景的视觉图像。这些图像旨在使用视觉语言提示方法,结合场景描述和出现的角色和设置的图像,以保持视觉一致性。第三,场景图像作为生成动画视频的基础,LMMs生成提示来引导这个过程。整个过程是自动化的,没有人工干预,因为LMMs与生成工具无缝交互,生成提示,评估视觉质量,并选择最佳的优化最终输出。
  • 图表
  • 解决问题
    解决问题:论文提出了一种使用大型多模态模型来自动生成动画视频的方法,以解决传统动画生成方法需要大量人工标注数据、训练成本高、生成的动画片段信息贫乏、上下文不连贯等问题。
  • 关键思路
    关键思路:使用大型多模态模型作为核心处理器,结合生成式人工智能工具,实现从简洁的故事或简单的指令中自动生成动画视频。该方法分为三个主要阶段:生成连贯的故事情节、生成详细的导演脚本以及生成视觉图像和动画视频。整个过程是自动化的,无需人工干预。
  • 其它亮点
    其他亮点:该方法使用了大型多模态模型和图像生成工具,以及视觉语言提示方法来保持视觉一致性。实验结果表明,该方法可以生成高质量的动画视频,且无需人工干预。论文未开源代码,但使用了公开数据集。
  • 相关研究
    相关研究:最近在这个领域中,还有一些相关研究,如《Neural State Machine for Character-Scene Interactions》、《Learning to Animate from a Single Example》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论