MMInA: Benchmarking Multihop Multimodal Internet Agents

2024年04月15日
  • 简介
    自主实体代理生活在一个多媒体网站的互联网上。它们能否在多模式网站之间跳跃,完成复杂的用户任务?现有的基准无法在其在网站上的具体实现的逐渐演变的环境中对其进行评估。为了回答这个问题,我们提出了MMInA,一个多跳和多模式基准,用于评估具有组合性互联网任务的实体代理,具有以下几个吸引人的特点:1)逐渐演变的现实多模式网站。我们的基准独特地在逐渐演变的现实网站上运行,确保具有高度的现实感和适用性,适用于自然用户任务。我们的数据包括1,050个人类编写的任务,涵盖购物和旅游等各个领域,每个任务都要求代理从网页中自主提取多模式信息作为观察结果;2)多跳网页浏览。我们的数据集具有自然的组合任务,需要从多个网站获取信息或执行操作才能解决,以评估在Web任务上的长程推理能力;3)整体评估。我们提出了一种新颖的协议,用于评估代理完成多跳任务的进展。我们进行了独立(多模式)语言模型和基于启发式的Web代理的实验。广泛的实验表明,尽管长链多跳Web任务对于人类来说很容易,但对于最先进的Web代理来说仍然具有挑战性。我们发现,当解决更多跳的任务时,代理更容易在早期跳上失败,这导致任务成功率降低。为了解决这个问题,我们提出了一种简单的记忆增强方法,重播过去的行动轨迹以反映。我们的方法显著提高了代理的单跳和多跳Web浏览能力。请访问https://mmina.cliangyu.com查看我们的代码和数据。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提出一个名为MMInA的多跳、多模态基准测试,以评估具有组合能力的Web智能体在互联网多媒体网站上完成复杂用户任务的能力。
  • 关键思路
    MMInA基于真实世界的多模态网站进行操作,涵盖了多个领域的任务,要求代理从网页中自主提取多模态信息作为观察结果。同时,该基准测试还提出了一种新的协议,用于评估代理完成多跳任务的进展。
  • 其它亮点
    该论文提出了一个新的多跳、多模态基准测试,涵盖了多个领域的任务,并且基于真实世界的多模态网站进行操作,具有高度的现实性和适用性。该论文还提出了一种新的协议,用于评估代理完成多跳任务的进展。论文使用了大量的实验来验证其方法的有效性,并提出了一种简单的记忆增强方法来改善代理的性能。论文的数据集和代码已经公开。
  • 相关研究
    最近在该领域中,还有一些相关的研究,例如《Multi-modal Multi-hop Memory Networks for Task-Oriented Visual Dialog》和《Multi-hop Reading Comprehension across Multiple Documents with Minimal Supervision》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问