VideoGameBunny: Towards vision assistants for video games

向作者提问

NEW

简介

本文介绍了开发VideoGameBunny的过程，这是一种基于Bunny的LLaVA风格模型，专门用于理解来自视频游戏的图像。我们发布了中间检查点、训练日志和一个包括185,259个视频游戏图像和389,565个图像说明对的广泛数据集，其中包括图像标题、问答对和136,974个图像的16个元素的JSON表示。我们的实验表明，我们高质量的游戏相关数据有潜力使一个相对较小的模型胜过拥有4倍以上参数数量的最先进模型LLaVa-1.6-34b。我们的研究为未来在视频游戏理解方面的研究打下了基础，例如玩游戏、评论和调试等任务。代码和数据可在https://videogamebunny.github.io/获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视频游戏领域中的图像理解问题，包括场景理解、幻觉和不准确的描述等。同时，论文也试图提供一个高质量的数据集，以促进未来在视频游戏理解方面的研究。
关键思路

论文提出了一种名为VideoGameBunny的模型，该模型是基于Bunny的LLaVA风格模型，专门用于理解视频游戏中的图像。论文中还提供了一个包含超过18万个游戏图像和相应标注的数据集，该数据集可以帮助小型模型胜过大型模型。
其它亮点

论文提供了一个高质量的数据集，该数据集包括超过18万个游戏图像和相应标注，可以帮助小型模型胜过大型模型。作者还公开了中间检查点、训练日志和数据集，以便其他研究人员使用。实验结果表明，VideoGameBunny模型在视频游戏图像理解方面比LLaVa-1.6-34b模型表现更好。这项工作为未来在视频游戏理解方面的研究提供了奠基。
相关研究

在最近的相关研究中，也有一些关于视觉游戏理解的工作。例如，一篇名为“Video Game Description with Atari Learning Environment”的论文也探讨了视觉游戏理解方面的问题。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问