在互联网的浩瀚世界中,存在着无数复杂而扑朔迷离的任务等待我们去解决。如果要设计一个解决很多问题的通用智能体(AI agent),无论是关于购物、旅行、学习还是娱乐,要想在这个纷繁复杂的网络中驾驭大部分事物,我们需要一位真正的通才。而幸运的是,Mind2Web 数据集也许有机会成为我们探索互联网的指南,帮助我们
开发和评估能够根据语言指令在任何网站上完成复杂任务的通用智能体。Mind2Web 包含来自 31 个领域、137 个网站的 2350 个任务,它具有以下特点:
  • 反映了 Web 上多样化和与生活实际相关的使用案例。
  • 提供具有真实世界网站的具有挑战性但又现实的环境。
  • 测试在不同任务和环境中的泛化能力。

现有的 Web 智能体数据集要么使用模拟网站,要么只涵盖了有限的网站和任务,因此不适用于通用的 Web 智能体。和之前的数据集相比,Mind2Web 在以下几个方面独树一帜:

  1. 覆盖更多领域、网站和任务:包含来自31个不同领域的任务,覆盖了更广泛的主题和领域,使得智能体能够处理更多种类的任务。
  2. 真实世界网站:提供了真实世界的网站作为任务环境,这些网站反映了实际的在线体验,使得智能体可以在真实的网络环境中进行训练和测试。
  3. 广泛的用户互动模式:使得智能体能够适应不同的用户行为和操作方式,从而更好地应对各种任务要求。

咱们一起来看看这个数据集及相关任务的介绍吧~

论文题目:
Mind2Web: Towards a Generalist Agent for the Web

论文链接:
https://arxiv.org/abs/2306.06070 

代码地址:
https://github.com/OSU-NLP-Group/Mind2Web 

Demo 地址:
https://osu-nlp-group.github.io/Mind2Web/ 

论文速览

任务与领域

▲图1 Mind2Web 中的示例任务和所有领域

作者使用 SimilarWeb 的排名作为参考来收集这些网站,平衡了任务和网站的分布,以更好地测试不同级别的泛化能力,具体任务如下所示:

  • 跨任务泛化:在相同环境中跨任务的泛化,例如从图 (a) 到 (c )。
  • 跨网站泛化:在相同领域下跨网站的泛化,例如从图 (a) 到 (d)。
  • 跨领域泛化:在不同任务和环境中的泛化,例如从图 (e) 到 (i)。
▲图(a) 查询从纽约到多伦多的单程航班

▲图(b) 预订两名成年人7月1日和5日往返孟买和伦敦的航班
▲图(c) 使用 eTicket 号码 12345678 搜索由 Jason Two 预订的行程收据

▲图(d) 查找4月20日和23日往返芝加哥和伦敦的航班
▲图(e) 搜索布洛芬和阿司匹林之间的相互作用

▲图(f) 作为Verizon的用户,用月付购买一台 256GB 的蓝色 iPhone 13,并附带每月的苹果保护计划
▲图(g) 查找埃隆·马斯克的资料并关注,开启通知并点赞最新的推文
▲图(h) 浏览 Netflix 上从 1992 至 2007 年发布的喜剧电影流媒体
▲图(i) 打开页面以安排车辆知识测试的预约

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除