AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

2025年04月01日
  • 简介
    近期在图像和视频生成领域的进展为生成式游戏带来了新的希望。一个特别引人注目的应用是将动画电影中的角色转化为可互动、可操作的实体。这使得玩家能够以自己喜爱的角色身份沉浸于动态的动画世界中,通过语言指令进行生活模拟。这类游戏被定义为“无限游戏”,因为它们消除了预设的边界和固定的游戏规则,玩家可以通过开放式的语言与游戏世界互动,并体验不断演变的故事线和环境。最近,一种开创性的方法用于无限动画生活模拟,该方法利用大型语言模型(LLMs)将多轮文本对话转换为图像生成的语言指令。然而,这种方法忽略了历史视觉上下文,导致游戏体验不一致。此外,它仅生成静态图像,未能融入吸引人游戏体验所需的动态元素。 在本工作中,我们提出了 AnimeGamer,这是一种基于多模态大语言模型(MLLMs)的方法,用于生成每个游戏状态,包括展示角色动作和状态更新的动态动画镜头,如图1所示。我们引入了新颖的动作感知多模态表示方法来表征动画镜头,这些表示可以借助视频扩散模型解码为高质量的视频片段。通过将历史动画镜头表示作为上下文并预测后续表示,AnimeGamer 能够生成具有上下文一致性和令人满意的动态效果的游戏。广泛的自动指标和人工评估表明,AnimeGamer 在游戏体验的各个方面均优于现有方法。代码和检查点可在 https://github.com/TencentARC/AnimeGamer 获取。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决如何通过生成动态动画和语言交互来构建无限游戏(infinite game)的问题,特别是将动漫角色转化为可互动、可玩的实体。当前方法存在的问题是:1) 忽视历史视觉上下文导致游戏不一致;2) 只生成静态图像,缺乏动态性。这并非全新的问题,但针对动漫领域的无限生命模拟游戏的研究仍处于初步阶段。
  • 关键思路
    论文提出了一种名为AnimeGamer的方法,基于多模态大语言模型(MLLMs),通过引入动作感知的多模态表示来生成动态动画镜头,并使用视频扩散模型将其解码为高质量视频片段。与现有方法不同,AnimeGamer不仅关注文本对话到图像生成的翻译,还结合了历史动画镜头表示作为上下文,从而预测后续镜头表示,确保游戏情境的一致性和动态性。
  • 其它亮点
    该论文通过自动化指标和人工评估验证了AnimeGamer在多个游戏体验维度上的优越性。实验设计包括对生成动画的质量、一致性以及互动性的评估。研究使用了开源代码(https://github.com/TencentARC/AnimeGamer),便于复现和进一步研究。未来值得探索的方向包括改进用户交互体验、扩展到更多类型的动画风格以及优化生成效率。
  • 相关研究
    相关研究包括利用大型语言模型生成静态图像的工作(如DALL·E、Stable Diffusion等),以及通过视频扩散模型生成动态内容的研究(如Phenaki、VideoLDM等)。此外,还有一些关于开放世界游戏生成的研究,例如OpenAI的Minecraft环境生成工作和Google的Dream Fields项目。值得注意的是,这些研究大多聚焦于静态图像生成或通用视频生成,而较少专门针对动漫风格和无限游戏的设计。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问