- 简介本文介绍了开发VideoGameBunny的过程,这是一种基于Bunny的LLaVA风格模型,专门用于理解来自视频游戏的图像。我们发布了中间检查点、训练日志和一个包括185,259个视频游戏图像和389,565个图像说明对的广泛数据集,其中包括图像标题、问答对和136,974个图像的16个元素的JSON表示。我们的实验表明,我们高质量的游戏相关数据有潜力使一个相对较小的模型胜过拥有4倍以上参数数量的最先进模型LLaVa-1.6-34b。我们的研究为未来在视频游戏理解方面的研究打下了基础,例如玩游戏、评论和调试等任务。代码和数据可在https://videogamebunny.github.io/获得。
-
- 图表
- 解决问题论文旨在解决视频游戏领域中的图像理解问题,包括场景理解、幻觉和不准确的描述等。同时,论文也试图提供一个高质量的数据集,以促进未来在视频游戏理解方面的研究。
- 关键思路论文提出了一种名为VideoGameBunny的模型,该模型是基于Bunny的LLaVA风格模型,专门用于理解视频游戏中的图像。论文中还提供了一个包含超过18万个游戏图像和相应标注的数据集,该数据集可以帮助小型模型胜过大型模型。
- 其它亮点论文提供了一个高质量的数据集,该数据集包括超过18万个游戏图像和相应标注,可以帮助小型模型胜过大型模型。作者还公开了中间检查点、训练日志和数据集,以便其他研究人员使用。实验结果表明,VideoGameBunny模型在视频游戏图像理解方面比LLaVa-1.6-34b模型表现更好。这项工作为未来在视频游戏理解方面的研究提供了奠基。
- 在最近的相关研究中,也有一些关于视觉游戏理解的工作。例如,一篇名为“Video Game Description with Atari Learning Environment”的论文也探讨了视觉游戏理解方面的问题。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流