VideoGameBunny: Towards vision assistants for video games

2024年07月21日
  • 简介
    本文介绍了开发VideoGameBunny的过程,这是一种基于Bunny的LLaVA风格模型,专门用于理解来自视频游戏的图像。我们发布了中间检查点、训练日志和一个包括185,259个视频游戏图像和389,565个图像说明对的广泛数据集,其中包括图像标题、问答对和136,974个图像的16个元素的JSON表示。我们的实验表明,我们高质量的游戏相关数据有潜力使一个相对较小的模型胜过拥有4倍以上参数数量的最先进模型LLaVa-1.6-34b。我们的研究为未来在视频游戏理解方面的研究打下了基础,例如玩游戏、评论和调试等任务。代码和数据可在https://videogamebunny.github.io/获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决视频游戏领域中的图像理解问题,包括场景理解、幻觉和不准确的描述等。同时,论文也试图提供一个高质量的数据集,以促进未来在视频游戏理解方面的研究。
  • 关键思路
    论文提出了一种名为VideoGameBunny的模型,该模型是基于Bunny的LLaVA风格模型,专门用于理解视频游戏中的图像。论文中还提供了一个包含超过18万个游戏图像和相应标注的数据集,该数据集可以帮助小型模型胜过大型模型。
  • 其它亮点
    论文提供了一个高质量的数据集,该数据集包括超过18万个游戏图像和相应标注,可以帮助小型模型胜过大型模型。作者还公开了中间检查点、训练日志和数据集,以便其他研究人员使用。实验结果表明,VideoGameBunny模型在视频游戏图像理解方面比LLaVa-1.6-34b模型表现更好。这项工作为未来在视频游戏理解方面的研究提供了奠基。
  • 相关研究
    在最近的相关研究中,也有一些关于视觉游戏理解的工作。例如,一篇名为“Video Game Description with Atari Learning Environment”的论文也探讨了视觉游戏理解方面的问题。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问