WorldScore: A Unified Evaluation Benchmark for World Generation

2025年04月01日
  • 简介
    我们提出了WorldScore基准测试,这是首个用于世界生成的统一基准测试。我们将世界生成分解为一系列基于显式相机轨迹布局规范的下一场景生成任务,从而能够对从3D和4D场景生成到视频生成模型的多样化方法进行统一评估。WorldScore基准测试包含一个精心整理的数据集,其中包括3,000个测试样本,涵盖了各种类型的世界:静态与动态、室内与室外、写实与风格化。WorldScore指标通过三个关键方面评估生成的世界:可控性、质量和动态性。通过对19种具有代表性的模型(包括开源和闭源模型)进行广泛评估,我们揭示了每类模型的关键见解和挑战。我们的数据集、评估代码和排行榜可在以下网址获取:https://haoyi-duan.github.io/WorldScore/。
  • 图表
  • 解决问题
    该论文试图解决世界生成任务的统一评估问题,通过提出WorldScore基准来衡量不同模型在生成静态和动态、室内和室外、写实和风格化世界的性能。这是一个新问题,因为这是首个针对世界生成任务的统一基准。
  • 关键思路
    关键思路是将世界生成任务分解为一系列基于相机轨迹布局规范的下一场景生成任务,并通过三个核心维度(可控性、质量和动态性)对生成结果进行评估。相比现有研究,这种方法提供了一个更系统化的框架来比较3D/4D场景生成和视频生成模型。
  • 其它亮点
    论文设计了包含3000个测试样例的多样化数据集,涵盖了各种类型的场景;评估了19种代表性模型,包括开源和闭源模型;提供了详细的分析和挑战总结。此外,数据集、评估代码和排行榜均已开源,便于后续研究者复现和改进。未来可以进一步探索如何增强模型在复杂动态场景中的表现。
  • 相关研究
    相关研究包括:1) NeRF及其变体(如Instant-NGP),用于高质量3D场景重建;2) VideoGPT等视频生成模型,关注时间连贯性;3) StyleNeRF等风格化场景生成方法;4) 动态场景生成领域的研究,如DyNeRF。其他相关工作可参考《Evaluating Generative Models for 3D Scenes》和《Dynamic Neural Radiance Fields for 4D Scene Representation》等论文。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论