m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

2024年03月17日
  • 简介
    真实世界的多模态问题很少能够通过单一的机器学习模型来解决,通常需要多步计算计划,涉及到多个模型的拼接。工具增强型LLM在自动化生成这种计算计划方面具有巨大的潜力。然而,缺乏用于评估LLM作为多步多模态任务规划器的标准化基准,阻碍了对规划器设计决策的系统研究。LLM是否应该一次性生成完整的计划,还是逐步生成?它们是否应该直接使用Python代码调用工具,还是通过结构化数据格式(如JSON)?反馈是否有助于规划?为了回答这些问题,作者提出了一个基准测试集m&m's,其中包含超过4,000个涉及33个工具(包括多模态模型、(免费)公共API和图像处理模块)的多步多模态任务。对于每个任务查询,他们提供了使用这个真实工具集自动生成的计划。此外,他们还提供了一个高质量的子集,包括1,565个任务计划,这些计划已经经过人工验证并可以正确执行。使用m&m's,他们评估了6种流行的LLM,采用了2种规划策略(多步骤和逐步规划)、2种计划格式(JSON和代码)和3种类型的反馈(解析/验证/执行)。最后,他们总结了他们广泛实验的结果。他们的数据集和代码可以在HuggingFace(https://huggingface.co/datasets/zixianma/mnms)和Github(https://github.com/RAIVNLab/mnms)上获得。
  • 图表
  • 解决问题
    论文旨在解决多模态任务规划中缺乏标准化基准的问题,以评估不同规划策略、格式和反馈对多模态任务规划的影响。
  • 关键思路
    论文提出了一个名为m&m's的基准数据集,包含4K+个多步骤多模态任务,涉及33个工具,以评估6种常见的LLMs,并比较多步骤规划和逐步规划、JSON格式和代码格式以及三种反馈方式对规划的影响。
  • 其它亮点
    论文提供了一个包含33个工具的多模态任务规划基准数据集m&m's,并提供了1565个经过人工验证和可执行的任务计划。实验结果表明,在多模态任务规划中,多步骤规划比逐步规划更有效;使用结构化数据格式如JSON比直接使用Python代码更为方便;反馈可以提高规划的准确性。
  • 相关研究
    最近的相关研究包括:'Towards Automated Tool Integration for Multi-Modal Data Science','A Survey of Automated Machine Learning'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论