Task Me Anything

2024年06月17日
  • 简介
    现在,大型多模态语言模型的基准测试已经可以同时评估模型的一般能力,而不是评估特定能力。因此,当开发人员想要确定哪些模型适用于他们的应用程序时,他们会被基准测试的数量所压倒,并且仍然不确定哪个基准测试的结果最能反映他们特定的用例。本文介绍了Task-Me-Anything,这是一个生成定制化基准测试的引擎,以满足用户的需求。Task-Me-Anything维护着一个可扩展的视觉资产分类法,并可以自动生成大量的任务实例。此外,它可以在计算预算内高效地算法地解决用户关于MLM性能的查询。它包含113K张图片、10K个视频、2K个3D对象资产、超过365个对象类别、655个属性和335个关系。它可以生成750M个图像/视频问答对,重点评估MLM感知能力。Task-Me-Anything揭示了关键的见解:开源MLM在对象和属性识别方面表现出色,但缺乏空间和时间理解;每个模型都有独特的优点和缺点;较大的模型通常表现更好,但也有例外;GPT4o在识别旋转/移动对象和区分颜色方面存在挑战。
  • 图表
  • 解决问题
    如何为用户提供一个根据他们的需求生成定制化基准测试的引擎?
  • 关键思路
    Task-Me-Anything是一个基准测试生成引擎,可以根据用户的需求生成基准测试,并在计算预算内高效地解决用户的查询问题。它包含大量的视觉资源和任务实例,并重点评估了MLM的感知能力。
  • 其它亮点
    Task-Me-Anything包含113K图像、10K视频、2K 3D对象资源,超过365个对象类别、655个属性和335个关系。它可以生成750M图像/视频问答对,重点评估MLM的感知能力。论文揭示了一些关键见解:开源MLM在对象和属性识别方面表现优异,但缺乏空间和时间理解;每个模型都有独特的优势和劣势;较大的模型通常表现更好,但也有例外;GPT4o在识别旋转/移动对象和区分颜色方面存在挑战。
  • 相关研究
    最近的相关研究包括:《ImageNet:一个大规模的视觉识别数据库》、《COCO:基于上下文的目标检测和分割数据集》、《Visual Genome:连接图像、对象和语言的知识库》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论