AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

向作者提问

NEW

简介

近期在图像和视频生成领域的进展为生成式游戏带来了新的希望。一个特别引人注目的应用是将动画电影中的角色转化为可互动、可操作的实体。这使得玩家能够以自己喜爱的角色身份沉浸于动态的动画世界中，通过语言指令进行生活模拟。这类游戏被定义为“无限游戏”，因为它们消除了预设的边界和固定的游戏规则，玩家可以通过开放式的语言与游戏世界互动，并体验不断演变的故事线和环境。最近，一种开创性的方法用于无限动画生活模拟，该方法利用大型语言模型（LLMs）将多轮文本对话转换为图像生成的语言指令。然而，这种方法忽略了历史视觉上下文，导致游戏体验不一致。此外，它仅生成静态图像，未能融入吸引人游戏体验所需的动态元素。在本工作中，我们提出了 AnimeGamer，这是一种基于多模态大语言模型（MLLMs）的方法，用于生成每个游戏状态，包括展示角色动作和状态更新的动态动画镜头，如图1所示。我们引入了新颖的动作感知多模态表示方法来表征动画镜头，这些表示可以借助视频扩散模型解码为高质量的视频片段。通过将历史动画镜头表示作为上下文并预测后续表示，AnimeGamer 能够生成具有上下文一致性和令人满意的动态效果的游戏。广泛的自动指标和人工评估表明，AnimeGamer 在游戏体验的各个方面均优于现有方法。代码和检查点可在 https://github.com/TencentARC/AnimeGamer 获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决如何通过生成动态动画和语言交互来构建无限游戏（infinite game）的问题，特别是将动漫角色转化为可互动、可玩的实体。当前方法存在的问题是：1) 忽视历史视觉上下文导致游戏不一致；2) 只生成静态图像，缺乏动态性。这并非全新的问题，但针对动漫领域的无限生命模拟游戏的研究仍处于初步阶段。
关键思路

论文提出了一种名为AnimeGamer的方法，基于多模态大语言模型（MLLMs），通过引入动作感知的多模态表示来生成动态动画镜头，并使用视频扩散模型将其解码为高质量视频片段。与现有方法不同，AnimeGamer不仅关注文本对话到图像生成的翻译，还结合了历史动画镜头表示作为上下文，从而预测后续镜头表示，确保游戏情境的一致性和动态性。
其它亮点

该论文通过自动化指标和人工评估验证了AnimeGamer在多个游戏体验维度上的优越性。实验设计包括对生成动画的质量、一致性以及互动性的评估。研究使用了开源代码（https://github.com/TencentARC/AnimeGamer），便于复现和进一步研究。未来值得探索的方向包括改进用户交互体验、扩展到更多类型的动画风格以及优化生成效率。
相关研究

相关研究包括利用大型语言模型生成静态图像的工作（如DALL·E、Stable Diffusion等），以及通过视频扩散模型生成动态内容的研究（如Phenaki、VideoLDM等）。此外，还有一些关于开放世界游戏生成的研究，例如OpenAI的Minecraft环境生成工作和Google的Dream Fields项目。值得注意的是，这些研究大多聚焦于静态图像生成或通用视频生成，而较少专门针对动漫风格和无限游戏的设计。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问