- 简介近期,基于扩散模型和可控视频生成的技术进步使得高质量且时间连贯的视频合成成为可能,为沉浸式互动游戏体验奠定了基础。然而,当前方法在动态表现、通用性、长期一致性和效率方面仍存在局限,这限制了其生成多样游戏视频的能力。为了解决这些不足,我们提出了 Hunyuan-GameCraft,这是一种专为游戏环境中高动态互动视频生成设计的新框架。为了实现精细的动作控制,我们将标准键盘和鼠标输入统一到一个共享的相机表示空间中,从而促进各种相机操作和移动操作之间的平滑插值。接着,我们提出了一种混合的历史条件训练策略,该策略能够在保留游戏场景信息的同时,以自回归的方式扩展视频序列。此外,为了提高推理效率和可玩性,我们通过模型蒸馏减少计算开销,同时在长时间序列中保持一致性,从而使模型适用于复杂互动环境中的实时部署。我们的模型在一个大规模数据集上进行训练,该数据集包含来自超过100款AAA游戏的超百万条游戏录像,确保了广泛的覆盖范围和多样性;随后,我们使用精心标注的合成数据集对其进行微调,以增强精度和可控性。经过筛选的游戏场景数据显著提升了视觉保真度、真实感和动作可控性。大量实验表明,Hunyuan-GameCraft 在互动游戏视频生成的逼真度和可玩性方面显著优于现有模型。
- 图表
- 解决问题该论文试图解决游戏环境中高质量互动视频生成的问题,特别是当前方法在动态表现、通用性、长期一致性和效率方面的局限性。这是一个需要进一步改进的现有问题。
- 关键思路论文提出了一种名为Hunyuan-GameCraft的框架,其关键思路包括:1) 将键盘和鼠标输入统一到共享的相机表示空间以实现精细的动作控制;2) 提出混合历史条件训练策略,通过自回归扩展视频序列同时保留场景信息;3) 使用模型蒸馏技术提高推理效率并保持长时间序列的一致性。相比现有研究,这篇论文更注重交互性和实时部署的可行性。
- 其它亮点论文使用了一个大规模数据集(超过一百万段来自100多款AAA游戏的录像),并通过精注释的合成数据集进行微调,显著提升了视觉保真度和动作可控性。实验结果表明,Hunyuan-GameCraft在真实感和可玩性方面优于现有模型。此外,论文强调了对复杂交互环境的适应能力,并可能提供了开源代码供后续研究使用。
- 近期相关研究包括:1)《Controllable Video Generation with Diffusion Models》探讨了基于扩散模型的可控视频生成技术;2)《Long-term Video Prediction Using Memory-based Transformers》研究了记忆增强型Transformer在长时序视频预测中的应用;3)《Real-time Interactive Scene Synthesis for Gaming》专注于实时互动游戏场景合成的方法。这些研究共同推动了游戏视频生成领域的进步。
沙发等你来抢
去评论
评论
沙发等你来抢